ТАСС, 27 июня. Российские ученые сравнили эффективность работы нескольких популярных систем ИИ для определения тематической принадлежности текстов и пришли к выводу, что разработанный в России алгоритм машинного обучения GLDAW лучше всего справляется с этой задачей. Об этом в четверг сообщила пресс-служба НИУ ВШЭ.
"Человеку обычно заранее не известно, сколько тем присутствует в информационном потоке, поэтому задачу определения числа тем надо переложить на машину. Для этого мы предложили измерять определенную величину информации как противоположную от хаоса. Если хаоса много, то информации мало, и наоборот. Это позволяет оценивать число тем, присущих датасету. Эти принципы мы применили в модели GLDAW", - пояснил ведущий научный сотрудник НИУ ВШЭ Сергей Кольцов, чьи слова приводит пресс-служба вуза.
Разработанный алгоритм представляет собой систему машинного обучения, которая способна анализировать произвольные тексты и определять их тематику, опираясь на так называемое распределение Дирихле, математический инструмент, в том числе позволяющий определять принадлежность каждого слова в тексте к большому числу разных тематик.
В дополнение к распределению Дирихле, разработка российских ученых также использует в своей работе так называемые векторные представления слов, математические конструкции, кодирующие значение фраз и текстов и позволяющие более точно оценить их сходство друг с другом. Работу этой системы анализа текстов Кольцов и его коллеги сравнили с четырьмя популярными алгоритмами, в том числе с двумя нейросетями (GSM и WTM-GMM), а также с системами ETM и W-LDA, которые также используют в своей работе распределение Дирихле.
Для проведения подобного сравнения исследователи подготовили три набора текстов. Один из них состоял из 8,6 тыс. русскоязычных новостей, опубликованных в одном из ведущих российских онлайн-СМИ. Два других содержали в себе несколько десятков тысяч англоязычных новостных сообщений по двум десяткам различных тематик, а также коротких описаний научных статей, размещенных в базе Web of Science.
Проведенный учеными анализ показал, что российская система GLDAW, а также зарубежный алгоритм ETM, значительным образом превзошли нейросети и подход W-LDA сразу по нескольким параметрам при классификации тематик и русскоязычных, и англоязычных текстов. При этом алгоритм GLDAW не требует дополнительного обучения и обладает более высокой стабильностью, чем ETM, что делает его пока самым лучшим инструментом для анализа тематики текстов, подытожили исследователи.