Два выпускника частного американского университета Брауна смогли воссоздать нейросеть GPT-2 от компании OpenAI, одним из основателей которой был Илон Маск. Полную версию нейросети разработчики не стали выкладывать в открытый доступ, поскольку она была бы слишком хорошим помощником для разного рода интернет-мошенников. Сами же студенты считают, что ничего страшного в такой нейросети нет.
OpenAI создала GPT-2 для того, чтобы генерировать связный текст. У этой нейросети рекордное число параметров — 1,5 миллиарда (чем их больше, тем более сложные задачи может решать нейросеть) — при том, что предшественники (например, нейросеть BERT от Google) обходились лишь 100—300 миллионами.
GPT-2 работает на основе технологии машинного обучения без учителя, то есть она сама находила «правильный ответ» в ходе тренировки на большом массиве данных. Ее предшественница — аналогичная нейросеть GPT — обучалась на текстах из книг и «Википедии», однако этого оказалось недостаточно для приемлемого результата. Поэтому GPT-2 дообучали на 8 миллионах страниц, источником которых послужил один из самых популярных в мире сайтов — Reddit. Пользователи размещают на нем ссылки на понравившуюся им информацию, оценивают ссылки друг друга, формируя таким образом их рейтинг, а также общаются.
Чтобы не повторить предыдущих ошибок, а также исключить из выборки рекламу и спам, разработчики обучали нейросеть не на всех ссылках подряд, а лишь на тех, у которых был хороший рейтинг. В результате, по уверениям создателей, GPT-2 научилась генерировать целые страницы связного текста. Именно поэтому в феврале 2019 года OpenAI отказалась публиковать полную версию кода нейросети, ограничившись ее уменьшенной копией.
Читайте также: И еще раз учиться. Почему машинное обучение так популярно сейчас и что с ним будет дальше
Тем не менее два выпускника Брауновского университета, Аарон Гокаслан (Aaron Gokaslan) и Ваня Коэн (Vanya Cohen), решили сделать копию GPT-2 и 22 августа опубликовали результаты своей работы в открытом доступе. По их словам, они потратили при этом всего 50 тысяч долларов — эти деньги ушли главным образом на пользование облачными вычислениями, предоставляемыми компанией Google. Если кому-то удастся найти более дешевые вычислительные мощности или потратить на вычисления больше времени, стоимость нейросети будет еще меньше.
Работу над копией GPT-2 программисты тоже начали с Reddit. Они использовали последние актуальные посты, комментарии и гиперссылки, из которых убрали те, что ведут, скорее всего, не на текстовые файлы, то есть, например, на видео, а также ссылки на «Википедию». Авторы подчеркивают, что не уверены, точно ли их критерии отбора совпадают с критериями специалистов OpenAI. Тем не менее после обучения нейросеть выдала весьма внятный результат, написав текст о смысле и трудностях утилизации мусора.
Как сообщает Wired, программисты считают, что их нейросеть не угрожает обществу. Напротив, она поможет лучше разобраться в безопасности в интернете и лучше защищаться от потенциальных угроз.
Незадолго до публикации Гокаслана и Коэна, 20 августа, OpenAI заявила, что ей известно как минимум о пяти других научных группах, которые полностью воспроизвели GPT-2. Но ни одна из них не обнародовала свою нейросеть. Компания также констатировала, что обмануть людей сгенерированным текстом такого качества довольно легко, а вычислить, что его писал не человек, очень трудно.