Создан первый всесторонний тест для ИИ на понимание длинных текстов
Разработка мощных языковых моделей в России идет полным ходом, подчеркнул исследователь МФТИ Айдар Булатов
МОСКВА, 1 декабря. /ТАСС/. Исследователи из России создали первый в своем роде инструмент, позволяющий всесторонне оценить способность той или иной большой языковой модели работать с длинными текстами на русском языке. Эта разработка, представленная конференции EMNLP 2025 в китайском Сучжоу, решает критическую проблему в области развития ИИ, сообщил Центр научной коммуникации МФТИ.
"Разработка мощных языковых моделей в России идет полным ходом, но до сих пор у нас не было общего "секундомера" для измерения их производительности в "марафонском забеге" - обработке длинных текстов. Раньше каждый разработчик тестировал свои модели по-своему, что делало сравнение невозможным. Мы создали единый, открытый и сложный полигон, на котором все желающие могут проверить свои модели в честном соревновании", - пояснил исследователь МФТИ Айдар Булатов, чьи слова приводит Центр научной коммуникации вуза.
Как отмечают исследователи, одной из слабостей в работе многих современных больших языковых моделей является то, что эти системы ИИ плохо работают с длинными текстами. Это связано с тем, что подобные алгоритмы способны удерживать в своей "памяти" несколько абзацев текста и при превышении этого объема, так называемого контекстного окна, они "забывают" ранее прочитанное и опираются на информацию лишь в последних абзацах анализируемых текстов.
Подобные проблемы побуждают ученых вносить существенные изменения в архитектуру больших языковых моделей, благодаря чему самые "продвинутые" системы ИИ сейчас могут оперировать текстами, сравнимыми по размеру с литературными произведениями. Существующие тесты не очень хорошо подходят для оценки того, насколько хорошо алгоритмы понимают такие тексты, что побудило исследователей из SberAI, НИУ ВШЭ, Института искусственного интеллекта AIRI и МФТИ создать свой инструмент для оценки подобных умений ИИ.
Он представляет собой комплексный "экзамен" для больших языковых моделей, который состоит из 18 заданий различной природы и сложности. Они позволяют оценить, как модель справляется с текстами объемом от 4 тысяч до 128 тысяч структурных элементов, что сопоставимо с размерами большой заметки в СМИ и длинной книги. В рамках этих заданий ИИ должен найти в тексте конкретную фразу, ответить на вопросы по содержанию текста, а также связать воедино несколько фактов, разбросанных по разным частям документа, или решить описанные в нем задачи.
Опираясь на этот подход, исследователи сравнили 17 популярных языковых моделей. Оказалось, что даже у самых продвинутых систем ИИ качество работы заметно снижается по мере увеличения длины текста. Лидером тестов стала модель GPT-4o, а среди доступных для российского сообщества моделей с открытыми параметрами настройки нейросети лучший результат показала GLM4-9B-Chat. Как надеются ученые, созданный ими инструмент поможет ускорить создание ИИ, способных понимать длинные тексты на русском языке.