Вот как выглядит, например, одна из страниц ДНКового текста, содержащаяся в томе (хромосоме) 11 человека (рис. 17).
Рис. 17. Страница Энциклопедии человека, на которой записана последовательность нуклеотидов ДНК человека, кодирующая белок альфа-интерферон. Ген интерферона выделен курсивом. Подчеркнут участок, кодирующий белок, состоящий из 188 аминокислот. Жирным шрифтом выделены знаки пунктуации в этом гене, обеспечивающие его правильную транскрипцию с образованием мРНК и последующую правильную трансляцию этой мРНК
Глядя на этот рисунок, даже специалисту сразу трудно что-то понять. Однако простая компьютерная программа быстро позволяет найти здесь участок, кодирующий белок интерферон. Это осуществляется в результате того, что в генах имеются специальные сигналы-ярлычки, которые можно рассматривать как знаки препинания в ДНКовом тексте. И компьютер способен их различить. Рассмотрим главные их них.
Так, в генах человека, как и у других высших организмов, имеются специальные последовательности-сигналы, которые определяют начало и конец процесса транскрипции, то есть синтеза мРНК.
Фермент, называемый РНК-полимеразой, узнает эти сигналы и осуществляет синтез «правильных» молекул мРНК (со строго запрограммированными в геноме концами). Одним из таких знаков препинания в ДНКовом тексте, отмечающим начало процесса транскрипции, служит короткая последовательность нуклеотидов: ТАТА (как пример, см. рис. 17).
Для процесса трансляции, то есть синтеза белка на мРНК, также имеются свои специальные знаки препинания. Таковыми являются отдельные тройки нуклеотидов (триплеты). На рис. 17 они выделены жирным шрифтом. Место, с которого начинается кодирование белка, — старт-сигнал — триплет АУТ. Далее следуют триплеты, которые кодируют аминокислоты в белке. А в конце текста имеется специальный стоп-сигнал (триплет УГА).
Но это еще не все. ДНК иногда претерпевает некоторые химические изменения. Известна такая химическая модификация ДНК, как метилирование, которая происходит строго по динуклеотидам-сигналам, представляющим собой пару нуклеотидов, в которой первым идет Г, а за ним Ц. Наконец, важными сигналами в генах являются участки, определяющие такой важный процесс, как сплайсинг, который происходит уже после образования РНК на гене. Об этом и пойдет речь дальше.
Гены построены из кусков
Успехи в изучении генома человека, а еще ранее — проведенный анализ отдельных генов других высших организмов, привели к ряду принципиально новых и совершенно неожиданных для генетиков результатов в отношении устройства генов, особенно тех, которые кодируют белки. Со времени появления центральной догмы молекулярной биологии думали, что непрерывная линейная последовательность нуклеотидов в ДНК с помощью триплетов нуклеотидов кодирует непрерывную последовательность нуклеотидов в мРНК, а последняя как посредник передает эту информацию на рибосомы, которые, считывая ее, осуществляют синтез линейных молекул белков. Это соответствовало ситуации, которую первоначально наблюдали при изучении генов у бактерий. Однако у высших организмов, включая человека, (и даже у некоторых низших) картина оказалась более сложной.
Когда сравнивали мРНК и соответствующий белок, то действительно обнаруживали непрерывность их нуклеотидных и аминокислотных последовательностей. То же наблюдали и при сопоставлении последовательностей аминокислот в белках и нуклеотидов в геномах вирусов. Однако с появлением возможности секвенировать протяженные участки ДНК (т. е. непосредственно генов) как у некоторых вирусов, так и у высших организмов получили совершенно неожиданные результаты. Внутри нуклеотидных последовательностей ДНК, кодирующих белок, были обнаружены какие-то иные, ничего не кодирующие участки. Чудеса, да и только! В чем же дело? Оказалось, что многие гены «расчленены» на отдельные куски. Одни из этих кусков, как и положено, кодируют белок (их назвали экзонами), а другие никакие белки кодировать не способны (их назвали интронами) и расположены между экзонами. Таким образом, в гене кодирующие и не кодирующие участки перемежаются друг с другом (рис. 18). Так устроено большинство белок-кодирующих генов. Хотя имеются и исключения. В этих случаях говорят, что ген устроен из одного экзона и интронов не содержит.
Рис. 18. Схематическое изображение экзон-интронного строения некоторых генов человека. Экзоны — прямоугольнники, интроны — линии между прямоугольниками. Темные прямоугольники — участки генов, кодирующие белок, белые прямоугольники в первом и последнем экзонах — специальные участки гена, кодирующие мРНК, но не кодирующие белок