Один из первых этапов анализа генома — это и есть идентификация генов. Нам необходимо выяснить, какие участки ДНК представляют собой гены, и гены какого именно белка. Вопрос совершенно не праздный, ведь, как мы знаем, даже у бактерий далеко не вся ДНК несет в себе информацию о структуре белков. Для этого применяются несколько подходов. Во-первых, статистические свойства белок-кодирующих областей не такие, как у некодирующих. К таким свойствам относятся частоты коротких цепочек нуклеотидов, различные периодичности и т.п. Во-вторых, существуют особые сигналы на границах кодирующих областей: простым примером являются стоп-кодоны, которыми заканчивается любой ген. В-третьих, для поиска генов, родственных (гомологичных) уже известным, можно использовать сравнение исследуемого фрагмента с банком данных всех изученных генов. Наконец, белок-кодируюшие последовательности изменяются в ходе эволюции медленнее, чем некодирующие, что позволяет выделить гены как островки локального сходства при сравнении геномов нескольких относительно близких организмов. Каждый из этих подходов по отдельности недостаточно надежен, и лучшие современные методы распознавания генов используют комбинированные алгоритмы.
Уже этот относительно простой пример иллюстрирует два основных принципа современной биоинформатики: сравнительный подход и комбинирование разных способов анализа материала. Те же принципы работают и на следующем шаге: предсказании функции гена, точнее, теперь уже — кодируемого этим геном белка, по его аминокислотной последовательности (заметьте, что мы постепенно приближаемся к поставленной цели). Как и раньше, если уже известен гомологичный ген из родственного организма, функция белка может быть предсказана просто на основании сходства последовательностей. Если известны более далекие гомологи, могут быть предсказаны общие биохимические свойства (например, в случае фермента — тип катализируемой реакции), однако специфичность и, стало быть, роль в метаболизме клетки должна быть установлена. исходя из других соображений, которые будут обсуждены чуть ниже. Наконец, иногда удается только лишь установить наличие в белке структурных особенностей или так называемых функциональных подписей — наборов аминокислот, характерных для белков, выполняющих одну и ту же функцию. Например, во всех секретируемых белках должны присутствовать сигнальные пептиды, определяющие прохождение белка через мембрану, а в любом белке, связанном с мембраной или занимающемся трансмембранным транспортом, должен быть участок, "прошивающий" мембрану насквозь — трансмембранный домен. Пример функциональной подписи — это пептидазные мотивы, которые образуют каталитические центры в ферментах, разрушающих пептидную связь, и АТ-фазные мотивы в ферментах, зависящих от гидролиза АТФ.
Оказывается, что простые соображения, основанные на сходстве с уже известными белками, позволяют установить клеточную роль для половины или даже до двух третей генов новосеквенированного генома, и общую биохимическую функцию для еще 10—20 процентов генов. Это позволяет описать в общих чертах метаболизм изучаемой бактерии и затем перейти к детальной метаболической реконструкции, то есть к описанию всех метаболических путей, закодированных в геноме.
Часть этой задачи решается так, как мы только что рассмотрели, а часть — нет. В нашей картине остаются пробелы, т. е. функции, которые должны присутствовать, исходя из общих соображений биохимической осмысленности, однако гены для которых не найдены. Например, внутренние реакции в линейных путях — мы точно знаем из биохимии, что такие внутренние реакции обязательно происходят, или молекулы-транспортеры исходных веществ-предшественников — они также обязательно должны быть в клетке. Попробуем заполнить эти пробелы методами сравнительной геномики, параллельно описывая механизмы регуляции и эволюции метаболических путей и регуляторных систем.
Механизм поддержания гомеостаза цинка. При достаточной концентрации ионов цинка (точки) в клетке его хватает и для основных белков рибосом (незакрашенные круги), и для ферментов (треугольники).
Репрессор (прямоугольник) в присутствии иона цинка взаимодействует со своим сайтом связывания (черный овал) и подавляет транскрипцию (угловая стрелка) гена дополнительного белка рибосом (большая стрелка).
При недостатке цинка репрессор оставляет свой сайт связывания, происходит транскрипция гено дополнительного белка, зтот белок включается в состав части рибосом (серые круги), заменяя основной белок (черная стрелка) и тем самым высвобождая часть ионов цинка для ферментов (черная пунктирная стрелка)