ТАСС, 18 ноября. Российские ученые научили нейросеть распознавать несколько десятков слов русского жестового языка на основе анализа видео. Разработка позволит повысить качество жизни людей с ограниченными возможностями и упростит их взаимодействие с различными видами техники, пишет пресс-служба Санкт-Петербургского Федерального исследовательского центра (СПб ФИЦ) РАН.
В мире от проблем со слухом страдает несколько сотен миллионов человек, и это количество ежегодно увеличивается. В частности, в России проживает более 13 млн людей с нарушением слуха, из них более 1 млн - дети. Для общения эти люди используют специальный язык жестов, который различается в зависимости от стран и диалектов. Этот фактор усложняет возможность использования цифровых помощников, управляемых голосом, на смартфонах, компьютерах и других системах.
При этом, машинный перевод с жестовых языков сопряжен с большими сложностями, по сравнению с обработкой звучащих языков, так как появляется дополнительная задача распознавания динамических жестов. В новой работе ученые нашли способ решить эту проблему с помощью специальной системы на основе нейросети, которая для обучения использует жесты глухих людей, зафиксированных на видеозаписи.
На основе этих данных исследователи создали трехмерные модели, на которых система с помощью алгоритмов глубокого машинного обучения училась распознавать определенные жесты. В качестве респондентов в исследовании участвовали студенты и преподаватели Межрегионального центра реабилитации лиц с проблемами слуха города Павловска. Всего в учреждении для исследования было отснято более 3 тыс. видеозаписей.
"Мы испытали нейросеть в лабораторных условиях. Для этого был создан прототип специальной роботизированной тележки для супермаркетов, на которой разместилась камера и портативный компьютер с программным обеспечением для распознавания жестов. Глухой человек на языке жестов объяснял, зачем он пришел в магазин, а тележка вела его к месту, где лежит нужный покупателю товар. На выборке жестов, которую мы использовали для обучения, точность распознавания составила более 90%", - рассказал один из авторов работы, старший научный сотрудник Санкт-Петербургского института информатики и автоматизации РАН Дмитрий Рюмин.