Все новости

В МГУ предложили новый метод прогнозирования свойств молекул на "малых" данных

Чтобы преодолеть нехватку данных, ученые решили использовать технику трансферного обучения. Ее идея состоит в том, что модель сначала обучается на большом наборе данных, а потом практически полностью переносится и дообучается на маленьких

МОСКВА, 4 февраля. /ТАСС/. Сотрудники МГУ решили проблему нехватки данных для использования машинного обучения в целях прогнозирования характеристик молекул и научились предсказывать физико- или биохимические свойства на основе всего нескольких десятков молекул. Результаты работы опубликованы в The Journal of Physical Chemistry Letters, сообщила в пятницу пресс-служба университета.

Методы машинного обучения часто используются в химии, чтобы установить зависимость между структурой молекулы и ее свойствами. Результат такого анализа - модель, способная предсказать свойства какого-либо соединения или, наоборот, предложить структуру молекулы с заданными свойствами. Однако для этого необходимо очень много данных: несколько тысяч или даже миллионы, но в реальности миллион молекул с измеренным в одинаковых условиях свойством найти невозможно.

"Чтобы преодолеть нехватку данных, авторы решили использовать технику трансферного обучения. Ее идея состоит в том, что модель сначала обучается на большом наборе данных, а потом практически полностью переносится и дообучается на маленьких. Причем, на первом этапе можно использовать расчетные или не очень точные данные, поскольку предсказательная точность модели уточняется именно вторым маленьким набором данных", - говорится в сообщении.

В качестве первоначального набора данных, как отмечают авторы работы, были взяты значения коэффициентов липофильности полутора миллионов малых органических молекул. Этот параметр показывает отношение растворимостей в октаноле и воде и очень удобен в использовании, так как его легко посчитать и измерить, и поэтому для него существуют большие базы данных.

При этом, по данным исследователей, перенос модели на небольшие данные проходит лучше, если конечное свойство, которое желательно научиться предсказывать, похоже на использованное для обучения. Например, модель на базе коэффициента липофильности предсказывает лучшие результаты для растворимости в воде.

"С помощью предложенного метода нам удалось с хорошей точностью предугадать разнообразные физико-химические и биохимические параметры. Например, температуру кипения, токсичность и активность по отношению к ряду известных мишеней - то, что как раз интересует людей, занимающихся производством лекарственных средств", - сказал один из авторов работы Кирилл Карпов, слова которого приводятся в сообщении.

Теги