Основы биоинформатики - Огурцов А.Н. 2013
Информационные принципы в биотехнологии
Функционирование и организация геномов
Геномы эукариот
В эукариотических клетках абсолютное большинство ДНК находится в ядре в виде нуклеопротеидных структур - хромосом. Каждая хромосома содержит одну двухнитевую молекулу ДНК. Небольшое количество ДНК есть и в органеллах - митохондриях и хлоропластах. Геномы органелл обычно имеют вид кольцевой двухнитевой ДНК, но иногда могут быть линейными или состоять из множества кольцевых ДНК.
Ядерные геномы разных эукариотических организмов могут сильно различаться по размеру. На рисунке 76 изображено полное число белковых генов в некоторых эукариотических геномах, которые были полностью секвенированы (см. [7], и. 13.4).
Рисунок 76 - Сравнение общего количества и специализации белковых генов в геномах различных эукариот
Функции приблизительно половины белков, закодированных в этих геномах, либо уже известны, либо были предсказаны на основе компьютерного сравнения генных последовательностей с аналогами. Оказалось, что размер генома не коррелирует с нашим интуитивным представлением о биологической сложности организма.
Например, круглый червь-нематода Caenorhabditis elegans имеет больше генов, чем плодовая мушка Drosophila melanogaster, хотя организм последней намного более сложно организован и её поведение существенно более разнообразное, чем у червя.
И совсем неожиданным оказался тот факт, что геном человека всего лишь приблизительно вдвое превышает геном нематоды, при всей колоссальной разнице в их строении и функциях.
Корреляция между размером генома и сложностью организма определённо не поддерживает того предвзятого мнения, что человек стоит на вершине развития.
Во многих случаях, разницу в размерах генома определяет количество простых повторяющихся участков, которых часто обозначают как "джанк-ДНК" ("junk DNA", бесполезная, бессмысленная, некодирующая ДНК, "ДНК-хлам"). (В отличие от "мусора" (garbage), который выбрасывается, хлам (старьё, барахло, junk) - хранится в кладовке или в сарае.)
В дополнение к различию в компоновке генов и "джанков", ДНК эукариот различаются количеством хромосом и распределением генов по ним. Некоторые различия в распределении включают транслокации, или хромосомные фрагментации или соединения.
Например, у человека 23 пары хромосом; у шимпанзе - 24. Вторая человеческая хромосома соответствует слиянию 12-й и 13-й хромосомы шимпанзе. Сложность в конъюгации хромосом во время митоза в зиготе после такого события может вносить вклад в репродуктивную изоляцию, требуемую для разделения видов.
Другие различия в хромосомном наборе отражают такие события, как удвоение и скрещивание.
Даже внутри отдельных хромосом эукариот довольно часто присутствуют целые семейства генов. Некоторые члены семейства являются паралогами - близкими генами, которые образовались в результате внутригеномной дупликации в пределах одного генома и во многих случаях разошлись, чтобы осуществлять раздельные функции в видах- потомках. Изменения в экспрессии могут предшествовать развитию новых функций (см. п. 10.1).
Ортологи, наоборот, - это гены (и их продукты), которые разошлись в результате видообразования. Например, человеческие а и ß глобины - это паралоги, а миоглобины человека и лошади - ортологи.
Другие схожие последовательности могут быть псевдогенами, которые могли появиться из-за дупликации, или ретротранспозиции из матричной РНК, за которой последовало накопление мутаций до потери функции.
Наглядным примером организации генов эукариот на хромосомах является человеческий кластер генов глобинов.
Гены и псевдогены гемоглобина человека расположены в кластерах на хромосомах 11 и 16 (рисунок 77).
Рисунок 77 - Расположение генов гемоглобина человека в хромосомах
В нормальном взрослом организме синтезируются в основном три типа цепей глобина: а- и ß-цепи, которые собираются в гемоглобиновые тетрамеры a2ß2, и миоглобин - мономерный белок, находящийся в клетках мускулатуры. Другие гемоглобины, кодируемые в других генах, синтезируются на эмбриональной и постэмбриональной стадиях развития.
а-Генный кластер на хромосоме 16 имеет длину около 28 kbp. Он содержит три функциональных гена: ζ- и 2а-гены, идентичные в кодирующей части; три псевдогена: ψζ, ψа1, и ψа2; a также ещё один гомологичный ген 1θ функция которою неясна.
ß-Генный кластер на хромосоме 11 имеет длину около 50 kbp. Он состоит из пяти функциональных генов: ε-ген, два у-гена (Gy и Ау), которые различаются на одну аминокислоту, гены δ и ß, а также один псевдоген ψß. Ген миоглобина не связан ни с одним из этих кластеров.
Все гены гемоглобина и миоглобина человека имеют одну и ту же интрон-экзонную структуру. Они содержат три экзона (Е), разделенные двумя нитронами (I) (рисунок 78).
Эта экзон-интронная структура консервативна в большинстве экспрессируемых генов глобина позвоночных, включая а- и ß-цепи гемоглобина и миоглобин. Гены глобина растений имеют один дополнительный интрон, гены глобина Paramecium имеют на один интрон меньше, а гены глобина насекомых не содержат ни одного. Ген человеческого невроглобина - гомолога, экспрессируемого в мозге на нижних уровнях, — содержит 3 интрона, как и ген глобина растений.
Рисунок 78 - Структура генов гемоглобина и миоглобина человека
Гемоглобиновые гены и псевдогены распределены по своим хромосомам, что отражает их эволюцию в результате дупликации и расхождения (рисунок 79).
Экспрессия этих генов строго следует стадиям развития организма. На эмбриональной стадии (до 6 недель после оплодотворения) синтезируются две цепи гемоглобина - ζ, и ε, которые формируют тетрамер ζ2ε2. После шести недель с момента оплодотворения и до восьми недель после рождения, основной вид гемоглобина - это постэмбриональный гемоглобин а2y2. Гемоглобин взрослого организма имеет структуру а2β2.
Талассемия - это генетическая болезнь, связанная с дефектом или потерей генов гемоглобина. У большинства европеоидов имеются четыре гена нормального а гемоглобина взрослого организма - две аллели каждого из генов a1 и а2. Поэтому а-талассемия может иметь различную степень клинического проявления, в зависимости от того, сколько генов экспрессируют нормальные а-цепи.
В норме только делеции, оставляющие менее двух активных генов, проявляются симптоматически. При генетических дефектах наблюдаются как делеции обоих генов (процесс который может происходить в местах совместного расположения генов и повторяющихся последовательностей, которые помогают кроссинговеру), так и потеря стоп-кодона, что приводит к созданию протяжённой нестабильной цели.
Рисунок 79 - Филогенетическая схема гемоглобиновых генов
ß-Талассемия вызвана обычно точечными мутациями, включающими миссенс-мутации (замена аминокислоты, мутации с изменением смысла) и нонсенс-мутации (бессмысленные мутации, меняющие кодирующий кодон на стоп-кодон), приводящие к преждевременной терминации и к появлению укороченного полипептида, а также к мутации в сплайс-сайтах или мутации в регуляторных участках. Определённые делеции, как нормального стоп-кодона, так и межгенного участка между δ- и ß-генами, порождают δβ-слитный белок.
Геном Saccharomyces cerevisiae. Дрожжи - один из самых простых известных эукариотических организмов. Клетки дрожжей, как и клетки всех эукариот, состоят из ядра и других специализированных внутриклеточных компартментов. Расшифровка генома, которая была сделана благодаря очень эффективно работающему международному консорциуму, включающему около 100 лабораторий, была завершена в 1992 году. Геном дрожжей содержит 12 057 500 пар оснований ядерной ДНК распределённой по 16 хромосомам. Хромосомы различаются по размеру независимо от порядка важности, от 1352 тыс. пар оснований (kbp) четвертой хромосомы до 230 kbp первой.
Геном дрожжей содержит 5885 генов, которые кодируют белки, около 140 генов для рибосомных РНК, 40 генов для малых ядерных РНК, и 275 генов транспортных РНК.
Геном дрожжей в кодирующих участках плотней, чем известные геномы более сложных эукариот Caenorhabditis elegans, Drosophila melanogaster и человека, по двум причинам.
Во-первых, интроны относительно редки и относительно малы. Только 231 ген дрожжей содержит интроны.
Во-вторых, там меньше повторяющихся последовательностей по сравнению с более сложными эукариотами.
Считается, что около 150 миллионов лет назад произошла дупликация всего генома у дрожжей. За этим последовала транслокация фрагментов дуплицированной ДНК и потеря одной из копий большинства (более 90%) генов.
Из 5885 генов, которые потенциально кодируют белки, 3408 соответствуют известным белкам. Ещё около 1000 кодируют белки, схожие с известными белками в других видах. Остальные около 800 генов сходны с открытыми рамками считывания из других геномов, соответствующих неизвестным белкам. Многие из них являются гомологами прокариотических генов. Только у приблизительно одной трети белков дрожжей есть идентифицируемые гомологи в геноме человека,
Общепринята следующая классификация дрожжевых белков по функциональным категориям:
✵ Метаболизм.
✵ Энергия.
✵ Клеточный рост, клеточное деление, синтез ДНК.
✵ Транскрипция.
✵ Синтез белков.
✵ Функции белков.
✵ Пассивный транспорт.
✵ Клеточный транспорт и транспортные механизмы.
✵ Клеточный биогенез.
✵ Межклеточное взаимодействие или передача сигналов.
✵ Защита клеток, клеточная смерть и старение.
✵ Ионный гомеостаз.
✵ Клеточная организация.
✵ Мобильные элементы, вирусные и плазмидные протеины.
✵ Неклассифицированные.
Сегодня дрожжи являются моделью для тестирования методов определения функций продуктов генов. Поиск гомологов даёт хорошие результаты. Существуют коллекции мутантов, которые содержат нокаут для каждого гена. Открыты принципы клеточной локализации и экспрессии. На основе различных типов измерений, включающих в себя измерения, основанные на активации транскрипции пар протеинов, способных образовывать димеры, создаются каталоги межбелковых взаимодействий.
Геном Drosophila melanogaster. Drosophila melanogaster, плодовая мушка, используется как объект для подробных исследований в генетике и в биологии развития. Генетическая последовательность дрозофилы была получена в результате сотрудничества Celera Genomics и Berkeley Drosophila Genome Project и опубликована в 1999 году.
Хромосомы D. melanogaster представляют собой нуклеопротеиновые комплексы. Примерно третья часть генома содержится в гетерохроматине, сильно скрученных и компактных (и потому контрастно окрашиваемых) областях, расположенных по бокам центромеров. Другие две трети представлены эухроматином, более раскрученной, менее компактной формой хроматина. Большая часть активных генов находится в эухроматине. Гетерохроматин D. melanogaster содержит множество тандемных повторов последовательности aataacatag и сравнительно мало генов.
Всего хромосомная ДНК D. melanogaster содержит примерно 180 миллионов пар нуклеотидов. Последовательность эухроматиновой части, состоит из 120 миллионов пар нуклеотидов.
Геном дрозофилы распределён между пятью хромосомами: три большие аутосомы, Y-хромосома и пятая маленькая хромосома, содержащая всего около 1 миллиона пар нуклеотидов эухроматина. Количество генов у мушки - 13338, что примерно вдвое больше, чем у дрожжей, но, что весьма удивительно, меньше, чем у С. elegans. Средняя плотность генов в эухроматиновой последовательности - 1 ген/9 kbp; что намного ниже типичной плотности у прокариот - 1 ген/1 kbp.
Несмотря на то, что насекомых нельзя назвать близкими родственниками млекопитающих, геном мушки используется для исследования заболеваний человека. Он содержит гомологи 289 человеческих генов, имеющих отношение к различным болезням, таким как рак, сердечнососудистые, неврологические, эндокринные, почечные заболевания, заболевания кровеносной системы, нарушения обмена веществ. Некоторые из этих гомологов у человека и мушки выполняют разные функции.
Другие гены, связанные с болезнями человека, могут быть встроены в геном мушки и исследованы на ней. К примеру, человеческий ген спинномозговой атаксии типа 3, экспрессированный в мушке, приводит к сходной дегенерации нервных клеток. Болезнь Паркинсона и малярию уже моделируют на мушке.
Некодирующие области генома D. melanogaster должны содержать участки, контролирующие пространственные модели развития во времени (сегментацию эмбриона). Мушку активно используют при исследованиях биологии развития организмов. Таким образом, D. melanogaster является чрезвычайно интересным модельным организмом, на котором удобно изучать геномику развития.
Контрольные вопросы и задания
1. Чем отличается организация генома прокариот по сравнению с эукариотами?
2. Почему регуляторные механизмы усложняют анализ генома?
3. Почему сплайсинг мРНК усложняет анализ генома?
4. Сформулируйте общее правило при предсказании белков на основе анализа генетической информации?
5. Почему посттрансляционные модификации белков затрудняют их предсказание на основе генетических данных?
6. Какие существуют два подхода к идентификации белок-кодирующих областей молекул ДНК?
7. Почему компьютерная аннотация генома является более точной и полной для бактерий, чем для эукариот?
8. Назовите особенности процедуры идентификации генов ab initio в эукариотических геномах?
9. Почему по статистике гексануклеотидов возможно достаточно эффективно различать кодирующие и некодирующие участки генома эукариот?
10. Какая часть генома бактерии Е. coli собрана в опероны?
11. Приведите пример, когда одна и та же полипептидная цепь присутствует в нескольких разных ферментах Е. coli.
12. Какая часть генома бактерии Е. coli кодирует ферменты?
13. Какие особенности набора ферментов бактерии Е. coli обеспечивают её метаболическую гибкость?
14. Какая часть генома М genitalium является кодирующей?
15. Как паразитический образ жизни бактерии М. genitalium отразился на составе её генома?
16. Что такое джанк-ДНК в геноме эукариот?
17. Что такое паралоги и чем они отличаются от ортологов?
18. Из каких элементов состоят все гены гемоглобина и миоглобина человека?
19. Назовите две причины, вследствие которых геном дрожжей в кодирующих участках плотней, чем известные геномы более сложных эукариот?
20. Как распределён геном D. melanogaster между гетеро- и эухроматином?