В человеческом геноме около 20 тысяч генов, кодирующих белки. Точно установить число так называемых некодирующих генов, производящих нетранслируемые РНК, сложнее, но предполагают, что их примерно столько же5. Не спешите, впрочем, задирать перед бактериями нос: наше превосходство нельзя назвать сногсшибательным, если учесть, что при кажущейся колоссальной разнице в сложности организмов разница в фактическом числе наших генов менее чем десятикратная. Более того, нас нельзя назвать особенными даже среди эукариот (организмов, клетки которых хранят свой наследственный материал в окруженном мембраной ядре). Около 20 тысяч белок-кодирующих генов насчитали в геноме домашней лошади, обычной домовой мыши и даже шпорцевой лягушки Xenopus tropicalis. У некоторых организмов генов меньше. Плодовая мушка Drosophila melanogaster и гриб Schizophyllum commune имеют примерно по 13 тысяч белок-кодирующих генов, а сапсан – около 16 тысяч. У хлебной плесени Neurospora crassa их около 10 тысяч, а у почвенной амебы Dictyostelium discoideum – около 13 тысяч. Однако есть и организмы с гораздо большим числом генов, чем у нас. ДНК крошечной дафнии Daphnia pulex, почти прозрачного ракообразного длиной не более миллиметра, кодирует 31 тысячу белков, и это пока рекорд среди животных с прочитанным геномом. Рис имеет около 30 тысяч белок-кодирующих генов, а кукуруза вообще обошла нас вдвое с почти 40 тысячами генов белков и десятками тысяч некодирующих генов6. Иными словами, число генов очень мало говорит нам о сложности организмов и их способностях.
Мы рассматривали ваш геном как базу данных из 20 тысяч белок-кодирующих генов, но это еще и физический объект – последовательность нуклеотидных пар A-T и Ц-Г, которые представляют собой ступеньки винтовой лестницы ДНК, занимающие физическое пространство. Давайте сначала рассмотрим нуклеотиды, а затем – само пространство. Ваш геном состоит примерно из 3 миллиардов спаренных нуклеотидов. Бактериальные геномы куда скромнее и обычно не превышают нескольких миллионов пар нуклеотидов (п. н.). У возбудителей туберкулеза и холеры, например, по 4 миллиона п. н., а у L. delbrueckii – около 2,3 миллиона. Но люди не особо выделяются и по этому параметру. Геном мыши сравним по размеру с вашим, а геном плодовой мушки примерно в 25 раз меньше. Меньше и геном риса: всего около 430 миллионов п. н. (Если это кажется вам странным – ведь у риса же так много генов, – не переживайте, вскоре мы к этому вернемся.) Зато особенно велики геномы саламандр, включающие от 14 до 120 миллиардов п. н. ДНК двоякодышащих рыб состоит из 130 миллиардов п. н., а геном растения Paris japonica – из колоссальных 150 миллиардов, то есть он в 50 раз больше человеческого и, вероятно, может считаться рекордсменом по размеру. Казалось бы, его превосходит геном одноклеточной амебы Polychaos dubium, составленный из 670 миллиардов п. н., но это спорное число, поскольку определялось устаревшими методами. (Я поражен, что никто еще не пересмотрел ДНК этого существа. Если вы читаете эти строки и располагаете свободным временем с секвенатором в придачу – дерзайте!) Как и в случае с числом генов, прямой связи между размером генома и сложностью организма не прослеживается7.
Считая гены и оценивая размеры геномов, мы обнаруживаем удивительную вещь. Как мы отметили, у человека 3 миллиарда пар нуклеотидов и около 20 тысяч генов, кодирующих уникальные белки. Размеры белков сильно варьируют, но в среднем человеческий белок содержит примерно 400 аминокислот, каждая из которых определяется тремя нуклеотидами ДНК. Следовательно, для создания 20 тысяч уникальных белков необходимо около 20 000 × 400 × 3 = 24 000 000 п. н. Но в человеческом геноме не 24 миллиона спаренных нуклеотидов, а 3 миллиарда. Этот геном в 100 с лишним раз больше содержащейся в нем белок-кодирующей ДНК! Так сложилось, что мы узнали длину человеческого генома раньше, чем его нуклеотидную последовательность и число генов в нем, и столь малое количество белок-кодирующих генов по сравнению с ожидаемым от генома такого размера стало для нас сюрпризом. У риса разница не столь велика, но все равно достигает порядка. Как правило, бо́льшая часть генома непосредственно не кодирует белки. Что же тогда она делает? Во многом это остается загадкой до сих пор. Некоторые участки генома транскрибируются в РНК, но потом не транслируются в аминокислотные цепочки. К ним относятся, как отмечалось раньше, независимо работающие молекулы РНК, а также сегменты РНК, которые вырезаются в ходе сплайсинга из транскрипта, синтезированного РНК-полимеразой, до его трансляции рибосомой. Впрочем, значительная часть некодирующей ДНК даже не транскрибируется в РНК, но может влиять на считывание генов, например, формируя места вроде промоторов.