Все новости

Боты DeepMind переиграли людей в командный Quake III Arena

Но ряд ограничений в тестах «нейронки» позволяет считать, что о конце Quake говорить еще рано
Пример того, как происходит матч в Quake Cooller vs CZM — ESWC 2005 Quake3 Grand Final / decebal01US / Youtube
Описание
Пример того, как происходит матч в Quake
© Cooller vs CZM — ESWC 2005 Quake3 Grand Final / decebal01US / Youtube

Компания DeepMind создала ботов, которые самостоятельно научились играть в некогда популярный шутер Quake III Arena по технологии глубокого обучения. Они преуспели настолько, что в среднем выигрывали 79% игр против людей. Однако о настоящем триумфе искусственного интеллекта над человеческим в «кваке» речи пока не идет. Во-первых, «кремниевые» игроки научились играть только в один из командных режимов игры, «захват флага», а классический турнирный режим для этой киберспортивной дисциплины, дуэль, им еще не поддался. Во-вторых, то, как роботы двигаются в игровом пространстве, демонстрирует, что до настоящего мастерства им еще далеко.

Нейронные сети глубокого обучения на слуху уже не первый год. В частности, благодаря тому, что несколько технологических лабораторий — DeepMind и OpenAI — уже несколько лет тратят немалые ресурсы на демонстрацию возможностей алгоритмов такого типа. Так, программа AlphaGo DeepMind уже «решила» го, победив в 2017—2018 годах лучших игроков на планете, а ее «сестра» AlphaStar смогла на равных соперничать с людьми в компьютерной игре Starcraft 2. Другая «нейронка», Open Five компании OpenAI, этой весной наконец смогла обыграть формально сильнейшую команду на планете по другой киберспортивной игре, Dota 2. Правда, все еще с рядом ограничений и взаимодействуя с игрой через специальный интерфейс (то есть не взаимодействуя с игрой в том же виде, в котором та предстает перед живыми игроками).

Последний проект DeepMind, об успехах которого компания отчиталась вчера на страницах научного журнала Science, продолжает наступление искусственного интеллекта на видеоигры. Нейронные сети проекта FTW (аббревиатура расхожей идиомы «for the win», в дословном переводе с английского — «на победу») освоили игру в Quake III Arena, крайне популярного в нулевые шутера, от первого лица. Долгое время эта игра остается классической киберспортивной дисциплиной.

''

Машина училась играть, имея в качестве входных данных только визуальную картинку (грубо говоря, данные о том, как именно окрашивает пиксели видеокарта) и получая информацию об игровом счете. Пока ей поддался только «Захват флага» — командный режим игры, в котором игроки должны добраться до «базы» противника, взять там флаг и вернуться с ним «домой», коснувшись родного флага (если его, в свою очередь, не украли оттуда противники). Соответственно, очки игрокам начисляются за убийства противника (которые в статье кокетливо называются «осаливанием», tag) и, собственно, за захваты флага. Состоящие из нескольких нейронных сетей боты должны были самостоятельно найти способ максимизировать суммарный выигрыш для команды.

Учились машины, играя друг против друга на процедурно генерируемых картах, то есть каждый следующий матч игрался на уникальной карте, которая создавалась из случайной комбинации стандартных элементов. Это было сделано для того, чтобы ИИ не совершенствовали поведение в конкретных условиях, а осваивали игру на более общем, стратегическом уровне.

Читайте также: Игры, в которые играли люди. Программа AlphaGo обыграла признанного чемпиона со счетом 4 : 1

Боты действовали, опираясь на стремление к вознаграждению (то есть увеличению игрового счета) и наблюдения, которые для каждого из них производили две нейронные сети, «быстрая» и «медленная», с общим модулем памяти.

В общей сложности друг против друга боты наиграли 426 000 игр.

Принципиальная схема того, как устроена «логика» бота. DeepMind
Описание
Принципиальная схема того, как устроена «логика» бота. DeepMind

За это время боты научились ориентироваться в типичном окружении и не просто набирать очки по ситуации, а играть созидательно. Они самостоятельно изобрели некоторые популярные тактические решения: двигаться по карте группой (таким образом поддерживая друг друга огнем), оставаться на защите своего флага или, наоборот, удерживать позицию на базе врага, задерживая выходящих с нее противников.

Затем DeepMind устроили турнир, в котором участвовали 40 игроков трех типов: боты FTW, классические боты на разной сложности «скриптах» (то есть опирающиеся при игре на огромный ворох правил, которые заложили в них создатели) и живые люди. Они также играли в кастомную версию Quake, с упрощенным моделями игроков и на процедурно генерируемых картах.

По ходу соревнования уровень участников оценивался при помощи классического рейтинга Эло: все игроки начали турнир с одинаковым рейтингом, за победу/проигрыш они получали или теряли очки пропорционально тому, насколько больше или меньше рейтинг был у их противника. Команды составлялись по уровню рейтинга, независимо от типа игрока, так что, как правило, они были смешанные, боты вместе с людьми играли против ботов и людей.

Читайте также: И еще раз учиться. Почему машинное обучение так популярно сейчас и что с ним будет дальше

Как показали результаты, боты FTW явно превзошли людей: в среднем на незнакомой карте команда двух ботов успешно захватывала на 16 флагов больше, чем команда двух людей. Рейтинг Эло у ботов FTW колебался между значениями 1550—1600, в то время как сильнейшие «белковые» игроки в среднем набрали 1200—1300. Даже после 12 часов практики команды людей смогли выиграть лишь четверть игр против команд ботов.

Авторы отмечают, что в целом люди лучше справлялись с перестрелками на дальних дистанциях, в то время как вблизи боты были намного более успешны: при неожиданных встречах, когда противники в буквальном смысле сталкивались друг с другом, завернув за угол карты, средняя скорость реакции ботов была 258 миллисекунд, в то время как у людей она составила 559.

Кроме того, боты ожидаемо продемонстрировали намного большую меткость: 80% против 48% у людей. Но даже когда меткость ботов искусственно понизили, они все равно играли в среднем лучше, чем люди. Когда же им еще и замедлили скорость реакции, люди стали выигрывать у них чуть чаще, но машины все равно выиграли 79% матчей.

Кадры с турнира. DeepMind
Описание
Кадры с турнира. DeepMind

DeepMind пишет, что на этом их работа над ботами FTW не окончена. Во-первых, часть технологий, которую они отработали в Quake, также была использована в коде AlphaStar, ИИ, играющего в Starcraft 2. В том же, что касается Quake, разработчики будут учить ботов играть в другие режимы игры, чтобы в конце концов заставить их побороться с людьми в полностью соревновательных условиях на существующих турнирных картах.

We've also started experimenting with scaling these algorithms up, creating agents which can play a whole suite of professional maps and game modes from Quake III Arena. pic.twitter.com/bNVg0WK37A— DeepMind (@DeepMindAI) May 30, 2019

We've also started experimenting with scaling these algorithms up, creating agents which can play a whole suite of professional maps and game modes from Quake III Arena. pic.twitter.com/bNVg0WK37A

Стоит отметить, что для того, чтобы полностью освоить Quake, ботам предстоит еще чуть более тонко изучить ее. Quake III Arena отдельно замечательна тем, что это игра, графический двигатель которой содержит специфическую ошибку, которая позволяет игрокам, используя ее, развивать огромную скорость передвижения — в игровых терминах это называют «распрыжкой» (или "bunny hopping"), поскольку игрок двигается все более длинными прыжками. В материалах же, представленных DeepMind, заметно, что игровая динамика на экране достаточно сильно отличается от того, что привыкли видеть люди, знакомые с Quake. Это позволяет предполагать, что ни боты, ни люди, участвовавшие в финальном турнире, так и не освоили игру в совершенстве.