Все новости

Алгоритмы машинного перевода переориентировали на создание новых молекул

С помощью нейросети "Трансформер" от Google Brains процесс создания лекарств может оказаться гораздо быстрее

ТАСС, 1 марта. Физик из МГУ Дарья Гречишникова адаптировала одну из самых успешных систем машинного перевода для получения новых молекул, которые могут стать основой новых лекарств. Результаты работы опубликовал научный журнал Scientific Reports, кратко об этом пишет пресс-служба МГУ им. Ломоносова.

"Модель генерирует 90% химически валидных лекарственных соединений, способных связываться с заданным белком, используя лишь его аминокислотную последовательность в качестве входных данных. Она может существенно ускорить и упростить процесс разработки лекарств", – говорится в сообщении.

Разработка лекарств – дорогой и долгий процесс, в среднем он занимает от 10 до 13 лет. Один из наиболее важных этапов разработки – поиск новой молекулы, действующего вещества, которое может действовать на белок-мишень. Это сложная задача, так как количество всех химически возможных молекул огромно, а синтезировано только малая часть. Поэтому ученые исследуют возможность применения методов и систем искусственного интеллекта для решения задач генерации новых молекул.

В новой работе Дарья Гречишникова использовала нейронную сеть "Трансформер". Ее придумали исследователи из Google Brains в 2017 году для обработки естественного языка. Одна из важнейших особенностей "Трансформера" – так называемые self attention-слои. Self attention – это механизм, который устанавливает связи между различными участками одной и той же последовательности и на основании этой информации строит ее представление.

В качестве слов Гречишникова предложила рассматривать аминокислоты и отдельные символы строкового представления молекулы. "Белок рассматривается как "контекст" для генерации связывающийся с ним молекулы. Такая постановка задачи позволила нам адаптировать одну из самых успешных архитектур в области машинного перевода к задачам генерации молекул. Оказалось, что аминокислотной последовательности белка достаточно для того, чтобы сгенерировать молекулы, связывающиеся с заданным белком", – объяснила она.

Эта модель может ускорить и упростить процесс разработки лекарств. С ее помощью можно быстро и эффективно создавать молекулы, способные взаимодействовать с конкретным белком. Более ранним моделям нужны данные об известных молекулах, которые связываются с белком, или информация о его трехмерной структуре. Однако для новых белков-мишеней для получения такой информации необходимо привлекать дополнительные методы.