Лингвисты создали инструмент для оценки сложности текстов на малоресурсных языках
Разработка может стать одним из инструментов для реализации указа президента России Владимира Путина "Об утверждении Основ государственной языковой политики Российской Федерации"
МОСКВА, 2 декабря. /ТАСС/. Российские ученые создали подход, позволяющий оценивать сложность текстов на языках коренных народов России, в том числе на адыгейском, башкирском, бурятском, татарском, осетинском и удмуртском языках. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности, сообщила пресс-служба НИУ ВШЭ.
"Параметры нашего подхода адаптированы под структурные особенности каждого из шести малоресурсных языков России. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки", - пояснила научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина, чьи слова приводит пресс-служба вуза.
Как отмечается в сообщении, данная разработка может стать одним из инструментов для реализации указа президента РФ Владимира Путина "Об утверждении Основ государственной языковой политики Российской Федерации". Он был принят в 2025 году для поддержания языкового многообразия и формирования курса на развитие и практическое использование языков народов России.
Для этого ученые из Центра языка и мозга НИУ ВШЭ создали онлайн-инструмент, позволяющий быстро и легко оценивать сложность текста на малых языках с учетом их лингвистических особенностей. По словам исследователей, ключевая инновация при разработке этой системы заключается в использовании формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста.
По словам ученых, созданный ими калькулятор сложности текста также учитывает особенности в типичной длине и частотности слов, характерные для каждого языка, и опирается в своей работе на список из 5 тыс. слов, наиболее часто употребляемых носителями этих языков. Также он учитывает лексическую плотность, лексическое разнообразие, динамичность и описательность текста.
Как отмечают Петрунина и ее коллеги, созданный ими инструмент поможет преподавателям подбирать качественный учебный материал на разных уровнях сложности, а также даст ученым возможность создавать сопоставимые стимульные материалы в научных экспериментах. Также исследователи планируют добавить в систему другие мало представленные в лингвистике языки, которые распространены не только на территории России, но и в других странах мира.