Зачем нужно секвенировать геном?
Секвенирование — это анализ последовательности генома. В любой нормальной клетке есть 23 пары хромосом, в каждой из которых в скрученном виде хранится молекула ДНК. Сама молекула похожа на лестницу, где перекладины — это пары азотистых оснований. Порядок, в котором эти основания находятся в геноме, и составляет его последовательность.
В некотором смысле геном — это как очень длинный (на миллиарды букв) манускрипт на неизвестном языке. Одна строчка в нем — это ген, то есть инструкция для клеток, какие белки им производить. Но интерес для ученых представляет не просто расположение "букв", а понимание того, что делают отдельные части генома. Поэтому секвенирование правильнее сравнивать не с расшифровкой, а с прочитыванием.
Чтобы понять предложение, мало знать буквы и слова. Важно знать грамматику и семантику языка. Если представить геном как книгу, отрывок из нее мог бы выглядеть так: "вадфдвбыстраябураяавалисааперескочилафлворчерезленивуюсобакувафцсобакаваыатихолежаламечтаяфаобавыобеде". Даже на знакомом языке трудно реконструировать предложение: "Быстрая бурая лиса перескочила через ленивую собаку. Собака тихо лежала, мечтая об обеде".
Точно так же и геном человека — это больше, чем просто последовательность генов. Важно понять, как гены обеспечивают жизнедеятельность клетки, как происходит регуляция (включение или выключение генов) или какие генные пути начинают работать в ответ на стрессовые факторы.
Как секвенируют геном? Почему это так долго и сложно?
Читать цепочку ДНК, просто "расправив" ее и пропустив через анализатор, неэффективно. Этот процесс был бы крайне долгим и затратным, особенно для длинных геномов типа нашего. По мере чтения накапливается много ошибок, которые исказят результат. Для получения корректных данных ждать пришлось бы многие десятилетия.
Сегодня при секвенировании молекулу сначала разрезают на части, при этом каждый кусочек еще и размножают — для подстраховки, чтобы не пропустить ошибку. Затем кусочки читают параллельно: основания метят с помощью красителей четырех цветов, где каждый цвет соответствует определенной "букве". Затем с помощью лазера цвет проявляют, а детектор его фиксирует.
Последовательность световых сигналов переводится на компьютере в последовательность оснований. На выходе ученые получают файл, содержащий буквенную запись. Но это еще не геном. Это "сырые" данные, объем которых во много раз превышает реальный объем генома.
С помощью компьютерных программ ученые реконструируют геном — сличают отдельные кусочки, удаляют повторы и ошибки. Когда последовательность собрана, нужно еще понять, что она значит. Для этого находят участки, похожие на гены, и сравнивают с базой уже известных генов. Затем ученые составляют физические карты хромосом.
Проект "Геном человека" стартовал в 1990 году, а расшифровка данных была закончена только в 2022-м. Впрочем, и она была неполной.
Почему остаток генома расшифровали только сейчас?
В начале 2000-х годов ученым удалось определить последовательность большинства участков — примерно 92% всего генома. Но с расшифровкой оставшейся части пришлось повременить.
Сложность была в том, что эти 8% состояли из большого числа коротких повторяющихся участков. У вас есть сотни участков, неотличимых друг от друга. Как сложить их в структурные единицы? Технологии того времени этого не позволяли. Останавливало ученых и то, что эта ДНК считалась вспомогательной и потому не особенно важной.
Закончить работу удалось лишь спустя два десятка лет, с помощью новейших методов секвенирования, которые использовал научный консорциум Telomere-to-Telomere: Oxford Nanopore DNA и PacBio HiFi. Первый за одно прочтение может покрыть до миллиона "букв" с умеренной степенью точности, второй — около 20 тыс., зато практически без ошибок. Сочетание этих двух методов позволило эффективно и быстро секвенировать оставшиеся части.
О чем рассказали новые данные?
По словам ученых, им удалось открыть 99 новых генов, которые кодируют белки, и примерно две тысячи генов-кандидатов, роль которых только предстоит изучить. Часть новооткрытых генов отвечают за иммунную реакцию на вирусы и другие патогены; другие участвуют в том, как клетка реагирует на некоторые лекарства; еще часть отвечает за размер нашего мозга.
Значительная часть этих новых открытий связана с двумя очень важными структурами хромосом: теломерами и центромерами.
Первые — это своего рода колпачки, защищающие ДНК от повреждений при делении клетки. Чем больше делений переживает клетка, тем короче становятся теломеры. Это снижает эффективность их защитной функции. Теломеры связаны со старением организма, поэтому их изучение необходимо для понимания этого процесса.
Что касается центромер, то это центральная структура, с помощью которой соединяются две части (плеча) хромосомы. Центромеры играют важную роль в делении клеток, обеспечивая равномерное распределение генетического материала и не допуская появление клеток с большим или меньшим количеством хромосом, чем нужно.
Как объяснил в своем заявлении один из членов группы, Эван Эйхлер, "полная последовательность генома показывает, что некоторые гены, связанные с мозгом, сильно различаются". Например, у одного человека может быть десять копий определенного гена, а у других — только одна или две. Это может дать много подсказок об индивидуальных различиях в мышлении и психике.
Что дальше?
Ученые ожидали, что информация о геноме откроет путь к созданию новых лекарств, обеспечит прорыв в здравоохранении. Однако со временем этот взгляд изменился. Оказалось, что знать роль только человеческих генов недостаточно. Например, здоровье человека определяется и геномом организмов, которые с ним сосуществуют, — бактерий, вирусов, грибков.
Кроме того, важно составлять банки геномов целых человеческих популяций — это дает представление о генетическом разнообразии людей. Например, о том, как влияют на здоровье те или иные вариации (полиморфизмы) одного гена. Этим занимается проект "Тысяча геномов", который нацелен на сбор и расшифровку геномов людей из разных частей планеты. Создаются национальные банки ДНК: исландская компания deCODE genetics, например, собрала генетическую информацию о двух третьих населения Исландии.
Эти данные используются для развития персонализированной медицины — индивидуального подхода к терапии на основании генетических данных пациента. Например, на основе генома можно понять, как подействует на раковую опухоль та или иная комбинация препаратов. Анализируя мутации, обнаруженные в геномных данных младенца, можно будет предсказать и предупредить развитие болезни.