Стюарт Рассел — профессор Калифорнийского университета в Беркли, соавтор популярнейшего 1400-страничного учебника "Искусственный интеллект. Современный подход". Его последняя книга "Совместимость. Как контролировать искусственный интеллект" более чем втрое тоньше, рассчитана на широкую аудиторию, но тоже написана основательно.
На главный вопрос — можно ли создать универсальный, "настоящий" искусственный интеллект? — Рассел отвечает скорее утвердительно. Но он оговаривается, что для этого нужны концептуальные прорывы: увеличение вычислительной мощности компьютеров лишь позволит быстрее получить неправильный ответ.
Концептуальные прорывы требуются, чтобы решить несколько проблем. Одна из них заключается в том, что машины пока не умеют делать открытия. Мы говорим, что машины учатся, но они не могут использовать это знание, чтобы сформулировать новые понятия и теории, даже самые простые. Этой проблеме и посвящен приведенный отрывок.
Около 1,4 млрд лет назад примерно в 13 секстиллионах километров отсюда две черные дыры, одна в 12 млн раз, другая в 10 млн раз массивнее Земли, сблизились настолько, что стали обращаться вокруг друг друга. Постепенно теряя энергию, они двигались по спирали все теснее и быстрее, достигнув орбитальной частоты вращения 250 оборотов в секунду при расстоянии 350 км, когда, наконец, столкнулись и слились. В последние несколько миллисекунд энергия излучения в форме гравитационных волн в 50 раз превышала совокупную выделенную энергию всех звезд во Вселенной. 14 сентября 2015 г. эти гравитационные волны достигли Земли. Они попеременно растягивали и сжимали само пространство в отношении примерно 1 к 2,5 секстиллионов, что эквивалентно изменению расстояния до Проксимы Центавра (4,4 световых года) на толщину человеческого волоса.
К счастью, за два дня до этого детекторы Advanced LIGO (лазерно-интерферометрической гравитационно-волновой обсерватории) в Вашингтоне и Луизиане были введены в эксплуатацию. Методом лазерной интерферометрии они смогли измерить это ничтожное искажение пространства. С помощью расчетов на основе общей теории относительности Эйнштейна (ОТО) исследователи LIGO предсказали — и поэтому именно ее и искали — точную форму гравитационной волны, ожидаемой при таком событии.
Это стало возможным благодаря накоплению и передаче знания и идей тысячами человек в течение столетий наблюдений и исследований. От Фалеса Милетского, натиравшего янтарь шерстью и наблюдавшего возникновение статического заряда, через Галилея, бросавшего камни с Падающей башни в Пизе, к Ньютону, следившему за падением яблока с ветки, и далее, через тысячи других наблюдений, человечество постепенно, слой за слоем, накапливало понятия, теории и устройства: масса, скорость, ускорение, сила, ньютоновские законы движения и гравитации, уравнения орбитального движения, электрические явления, атомы, электроны, электрические поля, магнитные поля, электро-магнитные волны, специальная теория относительности, ОТО, квантовая механика, полупроводники, лазеры, компьютеры и т. д.
В принципе, мы можем представить процесс совершения открытия как преобразование всех сенсорных данных, когда-либо полученных всеми людьми, в очень сложную гипотезу о сенсорных данных, полученных учеными LIGO 14 сентября 2015 г., когда они следили за своими компьютерными мониторами. Это понимание обучения исключительно сквозь призму данных: данные на входе, гипотеза на выходе, посередине черный ящик. Если бы это работало, это был бы апофеоз подхода к разработке ИИ на основе глубокого обучения — "большие данные, большие сети", — но это невозможно. Единственная жизнеспособная идея, имеющаяся у нас о том, как интеллектуальные системы могли бы прийти к такому колоссальному достижению, как регистрация слияния двух черных дыр, состоит в том, что предшествующее знание физики в сочетании с наблюдаемыми данными позволило ученым LIGO вывести заключение, что произошло слияние. Более того, это предшествующее знание само по себе было результатом обучения на основе предшествующего знания, и так далее, вглубь истории на всем ее протяжении. Итак, у нас есть приблизительная кумулятивная картина того, как интеллектуальные системы могут обретать прогностические возможности, используя знание как строительный материал.
Я говорю "приблизительная", поскольку, разумеется, за столетия наука иногда сворачивала не в ту сторону, временно увлекаясь погоней за такими иллюзорными феноменами, как флогистон и светоносный эфир. Однако мы достоверно знаем, что кумулятивная картина есть то, что действительно произошло, в том смысле, что ученые постоянно описывали свои открытия и теории в книгах и статьях. Последующие поколения ученых имели доступ лишь к этим формам эксплицитного знания, а не к исходному сенсорному опыту предшествующих, давно ушедших поколений. Будучи учеными, члены команды LIGO понимали, что все фрагменты знания, которым они пользуются, включая ОТО Эйнштейна, находятся (и всегда будут находиться) в периоде апробации и могут быть сфальсифицированы в результате эксперимента. Как оказалось, данные LIGO предоставили убедительное подтверждение ОТО, а также дальнейшие свидетельства того, что гравитон — гипотетическая частица гравитации — не имеет массы.
Нам еще очень далеко до создания систем машинного обучения, достигающих или превосходящих способность кумулятивного обучения и открытий, которую демонстрирует ученое сообщество — или даже обычные люди на протяжении своей жизни. Системы глубокого обучения Г по большей части основаны на данных: в лучшем случае мы можем заложить в структуру сети очень слабые формы предшествующего знания. Системы вероятностного программирования В действительно позволяют использовать предшествующее знание в процессе обучения, что проявляется в структуре и словаре базы вероятностного знания, но у нас пока нет эффективных методов создания новых понятий и отношений и их использования для расширения этой базы знания.
Трудность заключается не в поиске гипотезы, хорошо согласующейся с данными; системы глубокого обучения способны находить гипотезы, которые согласуются с визуальными данными, и исследователи ИИ разработали программы символического обучения, которые могут резюмировать многие исторические открытия количественных законов науки. Обучение автономного интеллектуального агента требует намного большего.
Во-первых, что следует включить в "данные", на которых делаются прогнозы? Например, в эксперименте LIGO модель прогнозирования степени растяжения и сжатия пространства по прибытии гравитационной волны учитывает массы сталкивающихся черных дыр, их орбитальную частоту и т. д., но не берет в расчет день недели или расписание бейсбольных матчей Высшей лиги. В то же время модель для предсказания дорожного движения на мосту через залив Сан-Франциско учитывает день недели и расписание бейсбольных матчей Высшей лиги, но игнорирует массы и орбитальные частоты сталкивающихся черных дыр. Аналогично программы, которые учатся распознавать типы объектов в изображениях, используют пиксели в качестве входных данных, тогда как программы, обучающиеся определять ценность антикварного предмета, хотели бы также знать, из чего он изготовлен, кем и когда, историю его использования и владения и т. д. Почему? Очевидно, потому что мы, люди, уже знаем что-то о гравитационных волнах, дорожном движении, визуальных изображениях и антиквариате. Мы используем это знание для принятия решений, какие входящие данные нам нужны для предсказания конкретного результата. Это так называемое конструирование признаков, и, чтобы выполнять его хорошо, нужно ясно понимать специфическую задачу прогнозирования.
Конечно, по-настоящему интеллектуальная машина не может зависеть от людей (конструирующих признаки), которые приходили бы ей на помощь всякий раз, когда нужно научиться чему-то новому. Она должна самостоятельно выяснять, что составляет обоснованное пространство гипотез для обучения. Предположительно, она делала бы это, привлекая широкий спектр релевантных знаний в разных формах, но в настоящее время у нас имеются лишь рудиментарные представления о том, как это осуществить. Книга Нельсона Гудмена "Факты, вымысел и прогноз" — написанная в 1954 г. и являющаяся, пожалуй, самой важной и недооцененной книгой о машинном обучении, — вводит особый тип знания, так называемую сверхгипотезу, потому что это помогает очертить возможное пространство обоснованных гипотез. Например, в случае прогнозирования дорожного движения релевантная сверхгипотеза состояла бы в том, что день недели, время суток, местные события, недавние автоаварии, праздники, задержки доставки, погода, а также время восхода и захода солнца могут влиять на дорожную ситуацию. (Обратите внимание, что вы можете построить эту гипотезу на основе собственного базового знания мира, не будучи специалистом по дорожному движению.) Интеллектуальная обучающаяся система способна накапливать и использовать знание этого типа для того, чтобы формулировать и решать новые задачи обучения.
Второе, пожалуй, более важное, — это кумулятивная генерация новых понятий, таких как масса, ускорение, заряд, электрон и сила гравитации. Без этих понятий ученым (и обычным людям) пришлось бы по-своему интерпретировать Вселенную и делать прогнозы на основании необработанных сенсорных данных. Вместо этого Ньютон имел возможность работать с понятиями массы и ускорения, выработанными Галилеем и другими учеными, а Резерфорд смог установить, что атом состоит из положительно заряженного ядра, окруженного электронами, благодаря тому что понятие электрона уже было создано (многочисленными исследователями, продвигавшимися шаг за шагом) в конце XIX в. Действительно, все научные открытия делаются на многоярусных наслоениях понятий, приходящих со временем и опытом человечества.
В философии науки, особенно в начале XX в., открытие новых понятий нередко объяснялось действием эфемерной троицы: интуиции, озарения и вдохновения. Считалось, что все эти элементы неподвластны рациональному или алгоритмическому объяснению. Исследователи ИИ, включая Герберта Саймона, яростно спорили с этим подходом. Попросту говоря, если алгоритм машинного обучения может осуществлять поиск в пространстве гипотез, включающем возможность добавления определений новых терминов, не содержащихся во входном сигнале, то этот алгоритм способен открывать новые понятия.
Например, предположим, что робот пытается выучить правила игры в нарды, наблюдая за играющими людьми. Он наблюдает, как они бросают кости, и замечает, что иногда игроки перемещают три или четыре фишки, а не одну или две, и что это происходит после того, как выпадет 1–1, 2–2, 3–3, 4–4, 5–5 или 6–6. Если программа может добавить новое понятие дублей, определяемое как совпадение выпавших на двух кубиках результатов, то сможет намного лаконичнее выразить ту же самую прогностическую теорию. Это однозначный процесс, использующий такие методы, как индуктивное логическое программирование, для создания программ, предлагающих новые понятия и определения, чтобы формулировать точные и лаконичные теории.
В настоящее время мы знаем, как это сделать в относительно простых случаях, но для более сложных теорий количество возможных новых понятий, которые можно было бы ввести, становится просто колоссальным. Это делает нынешний успех методов глубокого обучения в сфере компьютерного зрения еще более интригующим. Глубокие сети обычно с успехом ищут полезные промежуточные признаки, такие как глаза, ноги, полосы и углы, хотя пользуются очень простыми алгоритмами обучения. Если бы мы смогли лучше понять, как это происходит, то применили бы тот же подход к формированию новых понятий на более выразительных языках, необходимых для науки. Это само по себе стало бы громадным благом для человечества, а также заметным шагом на пути к универсальному ИИ.