Все новости

Создан "прозрачный" алгоритм для выявления текстов, написанных ИИ

Такой метод будет определять, какие признаки побудили алгоритм признать тот или иной материал результатом творчества людей или нейросети

МОСКВА, 22 июля. /ТАСС/. Российские исследователи разработали метод, позволяющий не просто отличать тексты, написанные человеком от сгенерированных системой искусственного интеллекта, но и также определять, какие признаки побудили алгоритм признать тот или иной материал результатом творчества людей или нейросети. Об этом сообщил Центр научной коммуникации МФТИ.

"Большинство популярных детекторов сгенерированных текстов не показывают, в какой степени в тексте присутствуют эти и другие понятные человеку особенности. В отличие от них, наш детектор позволяет автоматически раскладывать тексты на "атомарные" числовые признаки, многие из которых поддаются интерпретации в терминах, понятных человеку", - пояснила старший академический консультант компании Huawei Лаида Кушнарева, чьи слова приводит Центр научной коммуникации МФТИ.

Как отметила Кушнарева, в последние годы после появления больших языковых моделей, таких как ChatGPT, LLaMA и их аналогов появилась острая необходимость различать реальное творчество людей и сгенерированные ИИ тексты. В последние годы эти системы ИИ начали использоваться при написании не только вирусных текстов в интернете, студенческих курсовых и дипломов, но и серьезных научных работ, попадающих в рецензируемые журналы.

Для противодействия этому было создано несколько нейросетевых алгоритмов, способных отличать творчество людей и других ИИ. Все они работают по принципу "черного ящика". Это проявляется в выдаче вердикта "человек" или "ИИ" без объяснения пользователю, как именно было принято решение. По этой причине при сбое в работе таких алгоритмов сложно понять, почему система ошиблась и как избежать этого в будущем.

"Прозрачный" детектор творчества ИИ

Команде исследователей из "Сколтеха" (входит в группу ВЭБ.РФ), МФТИ, Института искусственного интеллекта AIRI и других научных центров удалось решить эту проблему при помощи использования так называемых разреженных автокодировщиков, одной из популярных архитектур для постройки ИИ, которая позволяет разбивать алгоритм на отдельные "атомарные" блоки, отвечающие за обработку определенных аспектов текста.

Используя этот подход, ученые проследили за тем, как большая языковая модель Gemma-2-2B генерировала тексты, и выявили признаки, которые разработанный ими алгоритм использовал для распознавания творчества ИИ. Это позволило исследователям найти множество характерных особенностей в работе данной большой языковой модели, в том числе многословность в финансовых текстах и перегруженные синтаксические конструкции в научных текстах, которые позволяют определять их происхождение даже в тех случаях, когда пользователь пытается скрыть сгенерированную природу материала.

"Мы также показали, что с помощью разреженных автокодировщиков можно обнаруживать и некоторые осознанные попытки скрыть факт генерации текста - преднамеренное добавление лишних пробелов, артиклей или нестандартных символов с целью запутать детекторы. Другими словами, данная техника позволяет автоматически разобрать текст "по косточкам" и принять решение, обоснованность которого может быть впоследствии проверена человеком на основе выявленных признаков и их интерпретации", - подытожила Кушнарева.

Теги