Управляющий роборукой искусственный интеллект от компании OpenAI научился собирать кубик Рубика. Чтобы решить эту задачу, которая под силу не каждому человеку, разработчикам понадобилось более двух лет, а у нейросетей на это ушел аналог 13000 лет. Об этом компания сообщила в своем блоге.
Компания начала работу с симуляции сборки. С этой задачей нейросеть, которую создали сотрудники OpenAI, справилась относительно легко, за два месяца. Однако физическая реализация оказалась гораздо сложнее – спустя чуть более года после начала работы инженеры смогли научить роборуку лишь манипулировать обычным кубиком.
Чтобы решить задачу, инженеры OpenAI использовали два инструмента – алгоритм Герберта Косиембы, с помощью которого можно переупорядочить цветные квадраты (то есть сделать то, в чем заключается сборка кубика Рубика) менее чем за 20 ходов, и так называемое обучение с подкреплением. Особенность этого метода тренировки нейронных сетей заключается в том, что искусственный интеллект во время обучения действует в некоторой среде, а потом получает от нее обратную связь и учится таким образом.
Эту обратную связь нейронная сеть получала от визуальных сенсоров, которые инженеры разместили на роборуке, а также от алгоритма Косиембы. В результате в ходе обучения, которое в реальном мире заняло бы около 13000 часов, рука научилась самостоятельно собирать кубик Рубика.
Рекордное время, за которое человек собирает кубик Рубика одной рукой, составляет чуть менее 7 секунд. Роборуке от OpenAI до такого пока далеко - она собирает кубик лишь в 60% случаев. Как уверяют разработчики, время, которое искусственный интеллект тратит на сборку одного кубика, зависит от того, насколько сильно "перемешали" его перед испытанием. Лучший результат, которого удалось добиться разработчикам, составил 3 минуты.
Инженеры надеются, что смогут научить роборуку и другим сложным операциям, для которых нужна серьезная координация движений – например, рисовать или делать оригами.
Ранее аналогичная нейросеть от OpenAI смогла одолеть людей в многопользовательскую онлайн-игру Dota 2, а другие подобные же алгоритмы искусственного интеллекта выигрывали у людей в китайскую национальную игру го, в покер или другую компьютерную игру – шутер Counter-Strike.