МОСКВА, 26 ноября. /ТАСС/. Исследователи из НИУ ВШЭ в Санкт-Петербурге разработали подход, позволяющий уменьшать размер нейронных сетей быстро и без потери качества благодаря применению методов статистической физики. Результаты первых проверок этого подхода были представлены учеными в статье в научном журнале Physica A: Statistical Mechanics and its Applications.
"Мы проверили наш метод на большом числе различных моделей, решающих задачи классификации, естественной обработки языка и компьютерного зрения. Проведенные расчеты показали, что данный подход показал свою эффективность на разных архитектурах и ускорил процесс оптимизации нейросетей от десяти до пятисот раз по сравнению с традиционным подходом", - говорится в исследовании.
Новая методика ускоренной оптимизации нейросетей была разработана группой российских исследователей под руководством профессора НИУ ВШЭ (Санкт-Петербург) Сергея Кольцова для преодоления одного из главных препятствий для развития больших языковых моделей и прочих крупных нейросетей - огромных требований по объему оперативной памяти, необходимой для функционирования этих систем ИИ.
Как отмечают исследователи, большие языковые модели содержат в себе десятки и сотни миллиардов параметров, на расчет которых требуются сотни гигабайт памяти, что создает экономический барьер и ограничивает доступ к технологиям. Сейчас для снижения подобных требований ученые особым образом "сжимают" нейросети, постепенно удаляя часть ее параметров и отслеживая то, как это меняет качество работы ИИ, что требует много времени.
Российские исследователи обратили внимание на то, что нейросети с миллиардами параметров похожи на облака газа, магнитные материалы и прочие физические системы из огромного числа элементов, чье поведение и устройство описываются законами статистической физики. Опираясь на эту идею, ученые разработали подход, позволяющий в десятки и сотни раз ускорять нахождение оптимальных размеров модели.
По словам ученых, их разработка уже опубликована в открытом доступе, что позволит любому разработчику или исследователю применить новый подход к своим моделям. Также исследователи предполагают, что аналогичным образом можно будет определять оптимальное количество блоков в архитектуре ИИ-моделей еще до начала их обучения. Это позволит колоссальным образом экономить ресурсы на разработку нейросетей, подытожили Кольцов и его коллеги.