4 АВГ, 10:51

Языковые модели научили понимать сложные трехмерные сцены

Это позволит использовать системы ИИ в работе реальных робототехнических платформ

МОСКВА, 4 августа. /ТАСС/. Ученые из России разработали метод, позволяющий большим языковым моделям лучше понимать то, как устроены трехмерные сцены, и более эффективным образом ориентироваться в них. Это позволит использовать данные системы ИИ в работе реальных робототехнических платформ, сообщила пресс-служба Института искусственного интеллекта AIRI.

"Сейчас мы работаем над интеграцией метода в реальные робототехнические платформы. Важно, чтобы робот не просто распознавал окружающие предметы, но и понимал, как объекты соотносятся друг с другом и с задачами пользователя. Такие навыки критичны для сервисных, образовательных и бытовых роботов следующего поколения", - пояснил ведущий научный сотрудник AIRI Дмитрий Юдин, чьи слова приводит пресс-служба института.

Как отмечается в сообщении, Юдин и его коллеги по AIRI, а также исследователи из Центра когнитивного моделирования МФТИ, разработали подход, который позволяет большим языковым моделям учитывать пространственные и семантические связи между элементами сцены - от расположения до относительных размеров и контекста использования. В прошлом, системы ИИ подобного рода были лишены такой способности.

Ее наличие особенно важно при анализе насыщенных бытовых пространств, таких как кухня, мастерская или офисное помещение, где десятки объектов тесно связаны друг с другом. Для достижения этого исследователи обучили две больших языковых модели, Vicuna-v1.5 и LLAMA3, на нескольких популярных и очень обширных наборах точных реконструкций реальных помещений, а также комбинациях из реконструкций и подробных текстовых запросов к этим сценам.

По словам исследователей, их разработка более чем на 10% превосходит системы трехмерного зрения, не использующие большие языковые модели в своей работе, а также позволяет более чем на 7% улучшить точность распознавания объектов по текстовому описанию по сравнению с популярным методом Chat-Scene. В этом отношении подход российских исследователей оказался сопоставим с передовым методом GPT4Scene, однако при этом он обрабатывает запросы пользователя в 2-4 раза быстрее за счет применения специальных методов сжатия.

Как отметили ученые, разработанная ими методика позволяет использовать для решения задач большие языковые модели с относительно небольшим набором параметров, что позволяет запускать данные ИИ на бортовых компьютерах робототехнических платформ, оснащенных графическими процессорами и большим объемом памяти. В перспективе, это позволит значительно расширить применимость больших языковых моделей в робототехнике.

Читать на tass.ru
Теги