НОВОСИБИРСК, 25 марта. /ТАСС/. Ученые из Новосибирска разработали программу, которая в автоматическом режиме переводит дореволюционные тексты на современный русский язык. Об этом пишет "Наука в Сибири".
Реформа орфографии русского языка произошла в 1918 году. Тогда из алфавита исключили несколько букв, такие как "ять" и "фита", изменились правила написания слов, гораздо реже стали использовать твердый знак. В результате современный читатель не всегда может хорошо понять книги, напечатанные по старым правилам.
Сейчас для работы с текстом все чаще используют алгоритмы. Однако существующие сейчас образцы работают только с текстами, которые написаны по правилам современной орфографией.
Чтобы облегчить человеку адаптацию дореформенных книг, ученые из Института вычислительных технологий СО РАН создали алгоритм для автоматического перевода таких книг. Он может выполнять рутинную работу редакторов и дает исследователям дополнительные инструменты для анализа текстов, уточняет "Наука в Сибири".
Для преобразования текстов, использующих разные орфографические правила существует несколько подходов. Они могут быть основаны на правилах, машинном обучении, нейронном машинном переводе. Разработанный ИВТ метод основан на правилах, несмотря на то, что до середины прошлого века орфография русского языка не была официально утверждена.
Сейчас программа еще не может анализировать случаи, которых нет в справочниках. Ученые планируют доработать ее таким образом, чтобы и они были учтены. Это можно сделать, найдя все подобные закономерности или использовав для этих метод машинного обучения.