В РФ разработали методику обучения нейросетей сложным правилам русского языка
Старший научный сотрудник Института ИИ МГУ Алексей Сорокин и его коллеги уже протестировали ее как на собственных моделях "Яндекса", так и на зарубежных больших языковых моделях
МОСКВА, 26 ноября. /ТАСС/. Российские исследователи подготовили обширный набор примеров ошибок по сложным правилам русского языка и создали метод, который помогает обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. Обе разработки были представлены на проходящем на этой неделе V Конгрессе молодых ученых, сообщила пресс-служба "Яндекса".
"Мы собрали тысячу примеров, в которых не только исправлены ошибки, но и указаны правила русского языка. Затем мы разработали метод, который лучше подбирает примеры с такими же ошибками из набора данных и позволяет нейросетям точнее исправлять их. Совместная работа университетских лингвистов и инженеров-разработчиков позволила создать решение, которое действительно понимает тонкости русского языка", - пояснил старший научный сотрудник Института ИИ МГУ (Москва) Алексей Сорокин, чьи слова приводит пресс-служба "Яндекса".
Как отмечают Сорокин и его коллеги, современные большие языковые модели уже пишут тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают данные нейросети, почти нет сложных правил. Для исправления этой ситуации специалисты Института ИИ МГУ и "Яндекса" подготовили набор примеров, охватывающих 48 правил русского языка, включая те, знание которых проверяют на ЕГЭ и олимпиадах.
Чтобы научить нейросеть исправлять сложные ошибки, не переобучая ее на подготовленном российскими исследователями наборе примеров, исследователи разработали новый метод из категории RAG (генерация, дополненная поиском). В рамках этого подхода специальная система ИИ находит в наборе данных предложения с тем же типом ошибок, что и в исходной фразе, а затем "подсказывает" их большой языковой модели.
Работу этого набора данных и методики обучения Сорокин и его коллеги уже протестировали как на собственных моделях "Яндекса", так и на зарубежных больших языковых моделях. И в тех, и в других случаях разработки российских ученых позволили на 5-10% повысить точность исправлений сложных ошибок, что является существенным улучшением качества их работы с текстами на русском языке.
Как отмечают разработчики, и набор данных, и метод обучения ИИ были выложены в открытый доступ. Это позволит исследователям и разработчикам различных сервисов использовать данные наработки для создания образовательных сервисов для школьников и студентов, подытожили Сорокин и его коллеги.