Нейросеть научили распозначать потенциально опасные реплики чат-ботов

К таким исследователи относят высказывания по поводу религиозных взглядов или методов самоубийства

ТАСС, 20 июля. Российские исследователи обучили нейросеть находить "чувствительные" текстовые сообщения чат-ботов – например, с обсуждением методов суицида или критикой религиозных взглядов. Результаты работы опубликованы в сборнике Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing, кратко об этом пишет пресс-служба Сколковского института науки и технологий.

"Мы продемонстрировали, что, хотя чувствительность темы и неуместность сообщения – довольно тонкие понятия, завязанные на человеческой интуиции, они тем не менее поддаются детектированию нейросетями. В частности, наш классификатор в 89% случаев угадал, какие высказывания являются неуместными, по версии респондентов", – рассказал один авторов работы Николай Бабаков.

Понятие чувствительной темы в исследовании служит основой для определения неуместных высказываний. Авторы исследования сформировали список из 18 чувствительных тем, в числе которых религия, политика, сексуальные меньшинства, самоубийство, порнография и преступления.

Для обучения нейросетей обнаружению чувствительных тем и неуместных сообщений ученые исследования сформировали два корпуса текстов. На первом этапе носителям русского языка предложили опознать высказывания на чувствительные темы (и конкретную тему каждого) среди прочих сообщений.

На втором этапе ученые показывали не произвольные сообщения, а примеры из корпуса чувствительных тем: респондент должен был ответить на вопрос, навредит ли оно репутации отправителя. По итогам второго опроса был сформирован корпус неуместных сообщений, на котором исследователи обучили новую модель распознавать такие сообщения.

Теги

Российская наука

Ученые экспедиции АПУ измерят сезонно-талый слой в Русской Гавани на Новой Земле

Рейс АПУ-2025 будет проходить по 1 августа

Читать полностью