Разработка Сбера поможет системам ИИ точнее распознавать русский язык
Новый подход опирается в своей работе на модифицированную версию нейросети-трансформера HuBERT, а также на семантические представления данных
МОСКВА, 21 августа. /ТАСС/. Исследователи из России разработали новый метод предобучения систем искусственного интеллекта, который повысит качество распознавания ими русского языка и при этом позволит им обучаться без использования дорогостоящих массивов размеченных аудиоданных. Об этом сообщила пресс-служба Сбера.
"Мы переосмыслили сам подход к предобучению моделей, сместив фокус на семантические представления. Новая архитектура демонстрирует высокую эффективность и гибкость, она ломает барьеры, которые долгое время сдерживали развитие систем распознавания речи для языков с малым количеством данных. Думаю, что наш метод может стать новым стандартом для индустрии", - заявил технический директор GigaChat Сбербанка Федор Минькин, чьи слова приводит пресс-служба Сбера.
Как отмечается в сообщении, разработанный российскими учеными подход опирается в своей работе на модифицированную версию нейросети-трансформера HuBERT, а также на семантические представления данных. Это отличает новый метод для предобучения систем ИИ от оригинальной версии HuBERT и других уже существующих подходов, которые используют в своей работе в основном низкоуровневые акустические переменные.
По словам исследователей, одним из главных плюсов их подхода является то, что он позволяет использовать неразмеченные аудиоданные при обучении систем ИИ, используя одну из популярных моделей для распознавания речи в качестве "учителя". Благодаря некоторым особенностям в работе этого подхода, обученные при его помощи ИИ способны работать и в онлайн, и в офлайн режиме без необходимости инвестирования в переобучение.
Используя этот подход, исследователи обучили ИИ-систему распознавания речи, опираясь на массив из 100 тысяч часов неразмеченных аудиозаписей на русском языке и предобученную нейросеть Conformer. Последующие проверки показали, что новый метод предобучения позволил системе ИИ достичь великолепного качества распознавания русской речи - он совершает на 50% меньше ошибок, чем передовая модель Whisper-large-v3 от OpenAI.
Как отмечают исследователи, предложенное ими решение имеет большое практическое значение для сервисов автоматического распознавания речи и голосовых помощников, контакт-центров и систем аналитики телефонных звонков. Новый метод будет востребован в мультимодальных системах, например, в чат-ботах с аудиопотоком, а также позволит ИИ-сообществу дообучать разрабатываемые системы распознавания речи и применять их под свои языки и задачи.