Все новости

Нейросеть научили расшифровывать названия органических молекул

Она делает это с точностью 99%

ТАСС, 29 июля. Ученые обучили нейронную сеть генерировать названия органических соединений в соответствии с требованиями Международного союза теоретической и прикладной химии (IUPAC). Таким образом они доказали, что нейросети могут решать точные алгоритмические задачи, пишет пресс-служба  Сколковского института науки и технологий.

Номенклатура IUPAC – общепринятый язык для записи названий органических соединений, использование которого требует от химика внимательности и хорошего знания многочисленных правил. При этом критична даже ошибка в одном символе названия.

"Ранее господствовала парадигма, что нейросети не следует применять для решения таких "точных" задач. Мы же показали, что это может быть разумной альтернативой сложным алгоритмическим решениям. В машинном переводе, например, допустимы замены слов на синонимы, но в нашей задаче ошибка даже в одной букве приводит к полностью неправильной молекуле. И тем не менее "Трансформер" успешно справляется с этой задачей", – рассказал руководитель исследования Сергей Соснин.

По словам авторов разработки, первоначально для решения задачи планировалась разработать алгоритм путем оцифровки правил IUPAC. Однако в процессе работы стало очевидно, что это может занять больше года. Тогда исследователи решили пойти другим путем – они взяли за основу одну из самых мощных современных нейросетей, созданную компанией Google для машинного перевода с одного языка на другой – "Трансформер" – и обучили ее под свои задачи.

В результате нейросеть может "переводить" молекулу из структурного представления в наименование по IUPAC и наоборот с точностью почти 99%. Кроме того, исследование показало, что нейронные сети способны достаточно точно решать алгоритмические задачи. Созданный метод, как отмечают ученые, можно будет применять и для других технических задач, например для генерации математических формул или трансляции компьютерных программ.

"И человек, и нейронная сеть хорошо справятся, к примеру, с задачей различения фотографий кошек и собак, для которой невозможно эффективное алгоритмическое решение без машинного обучения. В то же время человек плохо перемножает многозначные числа, а простейший калькулятор делает это мгновенно и с абсолютной точностью – это пример чисто алгоритмической задачи, как и генерация названий по номенклатуре IUPAC", – добавил Соснин.