Разработка российских ученых на 20% улучшила работу генеративных форм ИИ
По словам исследователя лаборатории Yandex Research Сергея Кастрюлина, для модернизации процесса генерации разработали универсальный открытый набор из пар изображений и текстовых описаний
МОСКВА, 15 августа. /ТАСС/. Российские ученые разработали универсальный открытый набор из пар изображений и текстовых описаний, позволяющий значительным образом улучшить генерацию изображений системами ИИ на базе запросов пользователей. Его применение позволяет до 20% улучшить качество, эстетику и сложность визуального творчества ИИ, сообщила ТАСС пресс-служба "Яндекса".
"Большинство компаний, таких как OpenAI, Google или Stability AI, используют для обучения ИИ закрытые наборы данных, которых нет в открытом доступе, из-за чего нельзя воспроизвести аналогичный результат. Либо же используются узкоспециализированные данные, ограниченные определенной стилистикой, но не подходящие для генерации других визуальных направлений. Мы создали универсальный открытый датасет, который можно использовать и для исследований, и для дообучения любых генеративных моделей", - пояснил исследователь лаборатории Yandex Research Сергей Кастрюлин, чьи слова приводит пресс-служба "Яндекса".
Как отметил исследователь, за последние годы специалисты в области разработке ИИ создали десятки алгоритмов, способных генерировать изображения по произвольным запросам пользователей. Для их разработки обычно используются гигантские базы изображений, включающие в себя миллионы фотографий, рисунков, произведений искусства и других форм визуального творчества, собранного по всему интернету.
Во многих случаях ученым-исследователям или разработчикам коммерческих форм ИИ требуется тонким образом настроить или же дообучить подобные модели для их оптимальной работы при решении узкого набора задач. Для этого обычно используются каталоги изображений, вручную собранные и подготовленные человеком, что значительным образом усложняет эту процедуру и делает ее недоступной для многих коллективов.
Для решения этой проблемы Кастрюлин и другие исследователи разработали методологию, которая позволяет быстро и очень эффективно создавать наборы текстовых описаний и подходящих под них изображений, позволяющих повысить качество работы широкого перечня нейросетей для генерации визуального контента. Данный подход, основанный на базе диффузной генеративной системы ИИ, позволяет полностью автоматизировать процесс дообучения и на порядки уменьшить размеры обучающей выборки.
Используя эту методику, исследователи создали универсальный набор данных из всего 3,35 тыс. пар изображений и текстовых описаний, и использовали их для дообучения пяти популярных вариаций ИИ Stable Diffusion, а также генеративной модели YandexART. Последующие тесты показали, что эстетика и сложность изображений увеличились на 12-20% при точном сохранении текстового описания запроса, что подтвердило высокую эффективность методики по подготовке наборов данных, разработанной российскими специалистами.