В связи со всем этим понятно, что классическая формула генетиков «один ген — один белок», предложенная лауреатами Нобелевской премии Джоржем Бидлом и Эдуардом Татумом, оказывается в реальности справедливой лишь для небольшой группы генов, а многие гены (возможно, большинство) кодируют семейства родственных, но существенно отличающихся белков, то есть нередко действует принцип «один ген — много белков». За счет этого в геноме осуществляется принцип экономии генетического материала (компактная запись) и достигается большой набор генных продуктов — белков — на относительно небольшом числе генов.
В таблице 3 приведена общая характеристика белок-кодирующих генов, выявленных в результате секвенирования генома человека.
В реальности размеры разных генов, а также их экзонов и интронов сильно отличаются. И основной вклад в эту вариабельность вносят интроны. Уже говорилось, что максимальный по размерам ген дистрофина занимает в геноме человека 2,4 млн. п. н. Подавляющая часть занята именно интронами (их средний размер составляет несколько десятков тысяч п. н.). Наибольшую кодирующую последовательность в геноме человека имеет ген по имени титин. Его размер равен около 81000 п. н. Этот ген — чемпион и по числу интронов (178 штук!), и по длине единичного экзона (17106 п. н.).
Важно отметить, что разбивка генов на отдельные экзоны неслучайна. Индивидуальный экзон часто кодирует не просто какую-то часть белковой молекулы, а определенный фрагмент белка, выполняющий в целом белке отдельную функцию. Такой отдельный структурно-функциональный фрагмент, входящий в состав целого белка, называют доменом.
Перекрывание генных текстов
Принцип компактности записи информации в ДНК проявляется еще в одном. Важный факт, обнаруженный первоначально при анализе последовательностей генов у вирусов, заключается в том, что в одном и том же участке ДНК иногда может быть записана информация о двух совершенно разных РНК (и, соответственно, о совершенно разных белках). Такое случается и в геноме высших организмов, включая человека. Как же это осуществляется? Вспомним, что записанный в ДНК текст явно не разбит на слова (буквы — нуклеотиды — следуют в молекуле ДНК одна за другой). Но слова в этом тексте есть, просто знаки пунктуации и разрывы между словами скрыты от глаза и узнаются клеткой после перекодировки информации из ДНК в РНК. Для большей наглядности приведем широко известный пример такого текста:
НАПОЛЕОНКОСИЛТРАВУПОЛЯКИПЕЛИСОЛОВЬЯМИ.
В зависимости от разбивки этого текста на слова получается два предложения с совершенно разным значением:
НА ПОЛЕ ОН КОСИЛ ТРАВУ ПОЛЯ КИПЕЛИ
СОЛОВЬЯМИ
НАПОЛЕОН КОСИЛ ТРАВУ ПОЛЯКИ ПЕЛИ
СОЛОВЬЯМИ.
Теоретически на двух цепях ДНК с учетом того, что код триплетный, можно записать 6 разных текстов: три на одной цепи и три на другой. Это может быть достигнуто за счет сдвига точки начала считывания информации, что называют сдвигом рамки считывания (начало считывания возможно с любого из 3-х разных рядом лежащих нуклеотидов) (см. рис. 21). Такое явление получило название перекрывания генов. Впервые оно было обнаружено у вирусов. И здесь было понятно, зачем это потребовалось. Вирусные геномы обычно очень маленькие. Перекрывание генов диктовалось необходимостью как можно компактнее разместить информацию на относительно коротких молекулах ДНК. Большой геном человека теоретически позволяет обойтись без такого перекрывания. Однако и в геноме человека, хотя и относительно редко, перекрывание генов также имеется.