Откуда берутся пробелы? Дело в том, что даже в родственных организмах белки с одинаковой функцией могут быть не очень похожи. Более того, для известных функций разные организмы могут использовать совершенно новые белки, колируемые, естественно, совершенно новыми генами. Даже среди реакций основного обмена веществ более сотни не представлены ни одним известным геном, и еще больше реакций, которые известны лишь в некоторых таксономических группах и не известны, например, в бактериях. С другой стороны, примерно 5—10 % каждого бактериального генома составляют гены из консервативных семейств, присутствующих практически в каждом геноме, но при этом не включающих ни одного экспериментально охарактеризованного гена. Консервативность и широкое распространение этих генов указывает на их важность, и ясно, что они-то и кодируют "отсутствующие" функции.
Заполнение пробелов основано на ряде наблюдений, сделанных после начала массового секвенирования геномов. Гены, кодирующие связанные функции, часто располагаются в бактериальных геномах рядом друг с другом. Такими функциями могут быть соседние реакции из одного пути, транспорт веществ-предшественников, регуляция транскрипции генов изданного пути и т.п. Конечно, то, что гены, кодирующие ферменты из одного пути, могут образовывать опероны (последовательные группы совместно транскрибируемых генов), было известно уже давно, однако только сравнение многих геномов позволило реализовать это общее наблюдение в алгоритмах, дающих количественную оценку потенциальной функциональной связи для каждой пары генов. Аналогично, существуют алгоритмы функциональной аннотации, основанные на том, что функционально связанные гены встречаются в геномах не независимо, а целой группой. Опять же, этому есть естественное биологическое объяснение: конкретная биохимическая реакция существенна для клетки не сама по себе, а лишь в контексте целого метаболического пути, и потому в геномах не встречаются гены, отвечающие за изолированные реакции, — продукты таких генов не нужны организму, ему их просто "некуда девать".
В качестве примера рассмотрим работу, в которой приемы сравнительной геномики позволили описать новые аспекты хорошо изученной системы гомеостаза цинка, ионы которого входят в состав многих необходимых для жизни клетки ферментов.
При сравнительном анализе геномов бактерий было обнаружено, что во многих бактериальных геномах имеются гены, кодирующие белки, гомологичные белкам рибосомы. Более того, оказалось, что в таких случаях основной белок имеет последовательность аминокислот, характерную для цинк-связывающих белков — так называемый "мотив цинковой ленты", а в дополнительных гомологичных белках этот мотив разрушен.
Встал вопрос: зачем нужны эти дополнительные белки, что они делают?
Так выглядит бактерия Escherichia coti —известная всем кишечная палочка
При более подробном анализе с использованием совершенно других приемов удалось установить, что гены, кодирующие эти дополнительные белки, имеют сайты связывания для белков — репрессоров транскрипции, работа которых зависит от наличия ионов цинка. Если цинка в клетке достаточно, репрессор связывается с таким сайтом и подавляет работу гена — дополнительные белки не производятся. Они синтезируются лишь при недостатке ионов цинка, после чего включаются в состав рибосом, вытесняя из них основные белки. Возможно, рибосома начинает работать несколько хуже, зато для ее работы уже не нужны ионы цинка. Это очень важный регуляторный механизм. Рибосом и рибосомных белков в клетке очень много — по крайней мере, на два порядка больше, чем молекул любого фермента. Между тем для работы многих клеточных ферментов цинк тоже абсолютно необходим, и без этого механизма им ионов цинка просто "не достанется" — в случае его нехватки все уйдет в рибосомы.
Мы видим, что методы сравнительной геномики позволяют не только описать метаболические возможности бактерии, такие, как способность расти на тех или иных субстратах, синтезировать иди импортировать необходимые вещества, и т.п., но и осуществить детальную метаболическую реконструкцию, описав гены, отвечающие за эти функции. Анализ же регуляторных сигналов дает возможность не только предсказывать, что может делать бактерия, но и в каких условиях она это делает.