ТАСС, 26 июля. Российские ученые создали программу поиска тандемных повторов – небольшие совпадающие участки в аминокислотных последовательностях, стоящих в структуре белка друг за другом. Результаты работы опубликовал International Journal of Molecular Sciences, кратко об этом пишет пресс-служба Федерального исследовательского центра "Фундаментальные основы биотехнологии" (ФИЦ Биотехнологии) РАН.
Изучение связи между аминокислотными последовательностями и структурой белка – важная задача для молекулярной биологии и биоинформатики. Тандемные повторы в аминокислотных последовательностях встречаются в примерно 25% белков и кодируют определенную либо вторичную, либо третичную структуру белка. Существует много программных продуктов для обнаружения повторов в аминокислотных последовательностях, но они плохо определяют повторы с большим количеством вставок и замен аминокислот.
"Мы разработали метод поиска высокодивергентных тандемных повторов, которые могут содержать в среднем до 4,4 замен на одну аминокислоту, тогда как чувствительность всех остальных методов ограничена примерно 2,5 заменами", – отметил один из авторов работы, сотрудник ФИЦ Биотехнологии РАН Евгений Коротков.
Предложенные российскими учеными метод – Method to Search for Highly Divergent Tandem Repeats (MSHDTR) – учитывает пары соседних аминокислотных остатков, образующих связи. Исследователи проверили его на базе данных Swiss-Prot, содержащей более 500 тысяч аминокислотных последовательностей, и обнаружили более 15 тысяч новых белков с тандемными повторами, длина большинства из которых достигала 5-7 аминокислотных остатков.
При этом, как отмечают авторы работы, 14 тысяч последовательностей оказались высокодивергентными – то есть содержали много замен и вставок и были практически невидимыми для других методов. С этими результатами алгоритм MSHDTR составил весовую матрицу, которую можно использовать для других программ, в том числе, как примеры для машинного обучения.
"Многие аминокислотные последовательности, особенно в ферментах, полностью состоят из сильно дивергировавших тандемных повторов. Фактически мы нашли следы создания белков из повторов различной длины. Но наш метод имеет и некоторые ограничения: он пропускает последовательности, которые повторяются малое число раз. Поэтому разные программы нужно использовать для разных целей", – сказала Валентина Руденко, коллега Короткова по центру.