Все новости

Нейросеть научили распознавать химические формулы в научных статьях

Благодаря этому можно будет быстрее распознать архивы старых научных журналов

ТАСС, 14 февраля. Российские ученые разработали систему искусственного интеллекта, которая может распознавать произвольные химические формулы в научных статьях и переводить их в понятный компьютеру язык. Это ускорит распознавание архивов старых научных журналов, пишет пресс-служба Сколковского института науки и технологий. Результаты исследования опубликовал научный журнал Scientific Reports.

"Наше исследование наглядно демонстрирует сдвиг парадигмы в области оптического распознавания химических структур. Если раньше исследователи работали над тем, как распознать молекулярные структуры, то благодаря уникальной производительности нейросетей типа "Трансформер" возможно полностью сфокусироваться именно на создании генератора искусственных примеров для обучения нейросети", - рассказал один из авторов исследования, научный сотрудник Сколковского института науки и технологий Сергей Соснин.

Соснин и его коллеги приспособили нейросети для решения одной из самых важных задач в современной науке - каталогизации и цифровизации всей научной информации, опубликованной в последние четыре столетия на страницах научных журналов, монографий и в прочих печатных и рукописных источниках информации. Особую сложность в этом отношении представляют научные работы по химии из-за отсутствия общепринятых стандартов, связанных с оформлением химических формул и структур.

Российские ученые предположили, что эту задачу сможет решить достаточно сложная нейросеть, способная обучаться на большом числе примеров и использовать накопленные сведения по структурам различных молекул для опознавания различных веществ на отсканированных страницах научных статей и книг.

Нейросетевой помощник химика

В качестве основы для этой системы искусственного интеллекта ученые dsбрали нейросеть-"трансформер", которая была создана компанией Google для создания систем онлайн-перевода с одного языка на другой. Ученые предположили, что это умение поможет их разработке "переводить" формулы с большого числа химических "диалектов" в специальный текстовый формат, понятный любому химику.

Последующие опыты с этой нейросетью показали, что она была способна распознавать и переводить фактически любые типы нотации химических формул, если в ее обучающей выборке присутствовало достаточно большое число хорошо изученных молекул с подобным оформлением записи. В теории это позволит очень быстро распознать и перевести на понятный всем химикам язык весь массив научной информации, накопленный человечеством за последние столетия.

Для этого, как отмечают Соснин и его коллеги, потребуется потратить большое количество времени и ресурсов на обучение созданной ими нейросети-"трансформера". Ученые предлагают ускорить эту задачу при помощи созданного ими генератора химических формул, который будет создавать случайные молекулярные шаблоны, комбинируя различные фрагменты молекул и стили отрисовки.

Подобный подход, как надеются ученые, уже в ближайшие годы приведет к тому, что почти все научные публикации по химии будут оцифрованы и доступны для любых желающих через глобальную сеть. Это значительно ускорит поиски новых молекул и позволит химикам открыть новые интересные свойства у уже изученных веществ, подытожили Соснин и его коллеги.