МОСКВА, 26 августа. /ТАСС/. Российские ученые разработали подход, позволяющий очень эффективным образом отслеживать появление галлюцинаций в работе систем ИИ и обнаруживать подобные сбои в их работе при использовании очень небольшого числа примеров для обучения. Новый подход примерно на 30% повышает точность выявления галлюцинаций, сообщила пресс-служба Сбера.
"Мы показали, что даже при небольшом объеме данных можно добиться высокой точности ИИ-систем. Предложенный нами способ использует метамодели и умное понижение размерности - это прорыв в выявлении галлюцинаций искусственного интеллекта. Мы не просто улучшаем технологии, но и снижаем риски дезинформации, что критично для доверия к современным моделям", - прокомментировал открытие директор Центра практического искусственного интеллекта Сбербанка Глеб Гусев, чьи слова приводит пресс-служба Сбера.
Как отмечается в сообщении, одной из главных проблем в разработке ИИ-технологий на базе больших языковых моделей и других продвинутых форм нейросетей является то, что они способны генерировать правдоподобные, но при этом ложные ответы. Для обнаружения подобных "галлюцинаций" ученые разработали несколько методов, однако для работы большинства из них требуются существенные объемы качественных размеченных данных для обучения.
Российские ученые разработали более простой и удобный подход, который опирается в своей работе на набор из алгоритмов, отслеживающих перемены в работе внутренних слоев системы ИИ в процессе выработки корректных ответов и галлюцинаций, а также на системы классификации, построенные на базе классических алгоритмов машинного обучения или быстродействующей нейросети-трансформера TabPFNv2.
Для обучения и проверки работы этой системы исследователи использовали несколько наборов из запросов, контекстов и ответов больших языковых моделей, часть из которых была верной, а другие содержали в себе галлюцинации. Эти тесты показали, что разработка российских ученых при использовании всего 250 примеров достигла уровня самых эффективных систем выявления галлюцинаций, построенных на базе коммерческих больших языковых моделей с закрытым кодом.
Эта особенность, по словам разработчиков подхода, позволит позволяет компаниям заметно экономить ресурсы на разметку данных и улучшать качество систем ИИ, способных использовать внешние данные при подготовке ответов на запросы пользователей. Также ученые и разработчики получают новый инструмент для анализа больших языковых моделей, а пользователи - более точные ответы от ИИ, подытожили исследователи.