Все новости

Искусственному интеллекту привили любопытство

Информатики из Университета Техаса и компании DeepMind разработали новый алгоритм, позволяющий искусственному интеллекту «мотивировать» себя на изучение окружающего мира и таким образом учиться быстрее и эффективнее.

Специалисты в области искусственного интеллекта (ИИ) давно работают над алгоритмами «любопытства», которые позволяли бы машинам самостоятельно исследовать окружающий мир и обучаться ради самого процесса обучения. Однако скопировать человеческую любознательность очень сложно. Например, большинство существующих алгоритмов не способны оценить пробелы ИИ в знаниях, чтобы предсказать, что ему будет интересно, до того, как он это увидит. То есть компьютер пока не способен в отличие от человека оценить, интересна ли ему книга, только по ее обложке.

Кроме того, люди (в частности, маленькие дети) исследуют не все подряд и не случайным образом — они выбирают любопытную для них часть реальности и концентрируются на ней, так как у них возникает внутренняя мотивация заниматься именно этим.

Двое исследователей — Тодд Хестер, сотрудник компании Google DeepMind (именно ее алгоритм AlphaGo победил чемпиона мира в настольной игре го) и информатик из Университета Техаса Питер Стоун — решили приблизить ИИ к человеческому способу познания мира и разработали новый алгоритм любопытства под названием «Целенаправленное исследование с внутренним вознаграждением за вариативность и новизну» (Targeted Exploration with Variance-And-Novelty-Intrinsic-Rewards (TEXPLORE-VENIR).

Алгоритм основан на технике, которая называется «усиленное обучение». В процессе усиленного обучения программа пробует что-то делать, и, если это действие продвигает ее ближе к некой установленной цели, например к концу лабиринта, программа получает небольшое вознаграждение и с большей вероятностью повторит этот маневр в будущем.

«Наградой» выступают баллы, начисляемые ИИ. А получает он их, как видно из названия, за два типа поведения: вариативность (отклонения в предсказательных моделях ИИ, чтобы побудить его исследовать, где его модель не определена, — иначе говоря, двигаться от простого к сложному) и стремление к новым состояниям, которые отличаются от тех, на которых он тренировался. То есть награды выдаются за поиск нового и разнообразного.

DeepMind использовал именно алгоритмы усиленного обучения, чтобы научить свои программы играть в компьютерные игры или настольную игру го путем случайных экспериментов.

Таким образом новый алгоритм учится и строит модель мира, «награждая» себя за открытие информации, которая не похожа на то, с чем он сталкивался раньше. Например, он находит новые точки на карте или, если это кулинарное приложение, экзотические рецепты. Он также награждает себя за уменьшение неопределенности — за то, что эти места и рецепты становятся ему известны.

Свой метод программисты протестировали на двух сценариях. Первый — виртуальный лабиринт, состоящий из четырех комнат, соединенных закрытыми на замок дверями. Компьютерная программа (бот) должна была найти ключ, взять его и использовать для открытия дверей. Каждый раз, когда она проходила в дверь, она зарабатывала 10 очков, и у нее было 3000 шагов для достижения результата. Если исследователи сначала давали боту исследовать 1000 шагов, руководствуясь только TEXPLORE-VENIR, он зарабатывал примерно 55 очков в среднем во время 30 000-шагового теста. Но если бот использовал другие алгоритмы любопытства для такого исследования, он набирал от 0 до 35 очков.

В другой обстановке, когда боту нужно было одновременно и исследовать комнаты, и проходить сквозь двери, TEXPLORE-VENIR зарабатывал 70 очков, R-Max — 35, а другие — меньше пяти, сообщают исследователи.

Затем исследователи применили алгоритм к физическому роботу — игрушке Nao. В трех разных заданиях машина зарабатывала очки за удар по тарелке, за то, что она держала розовую ленту на руке перед глазами или нажимала кнопку на ноге.

Для каждой задачи у робота было 200 шагов, чтобы заработать очки, но сначала 400 шагов для исследования (поиска способов, как можно выполнить все указанные действия) — беспорядочно или используя TEXPLORE-VENIR. И в 13 испытаниях этот алгоритм показал себя лучше алгоритмов беспорядочного перебора.

«Так, эксперименты с ботом и роботом показали, что TEXPLORE-VENIR хорошо подготовлен к поиску решений для заранее поставленных задач. Это похоже на то, как дети сначала беспорядочно „болтают“ руками и ногами, прежде чем учатся ползать, а потом ходить», — говорится в сообщении журнала Science.

Усиленное обучение очень важно для развития ИИ, так как позволяет роботу адаптироваться к условиям среды и задачам, которые изначально не были заложены в его программу. Например, базовая модель домашнего робота может быть помещена в дом, где он будет обучаться задачам, которые требуются от него в данном конкретном домашнем хозяйстве.

Как считает Тодд Хестер, следующим шагом будет использование глубоких нейронных сетей, алгоритмов, смоделированных по архитектуре мозга, чтобы роботы могли обучаться как дети.

Статья с описанием нового алгоритма опубликована в журнале Artificial Intelligence.

Ранее ИИ победил человека и в покере.

 Евгения Щербина