Основы биоинформатики - Огурцов А.Н. 2013

Информационные принципы в биотехнологии
Функционирование и организация геномов
Геномы прокариот

Большинство прокариотических клеток хранят свой генетический материал в виде одной большой кольцевой молекулы с характерной длиной 5 миллионов пар оснований. Кроме того, они могут содержать экстрахромосомальные ДНК - плазмиды.

Белок-кодирующие участки в бактериальных геномах не содержат интронов. Во многих прокариотических геномах белок-кодирующие области организованы в опероны (тандемно (друг за другом) расположенные гены, транскрибирующиеся в виде одной молекулы мРНК) и находятся под общим транскрипционным контролем (см. [7], п. 2.3). Многие опероны в бактериальных геномах кодируют функционально связанные гены. Например, последовательные гены в триптофановом trp-опероне Е. coli кодируют ферменты, катализирующие последовательные реакции биосинтеза триптофана. В археях не столь часто наблюдается взаимосвязь генов в оперонах.

Геном Escherichia coli. Рассмотрим геном Е. coli в качестве примера типичного прокариотического генома.

Е. coli, штамм К-12, уже давно является модельным организмом молекулярной биологии. Геном штамма MG1655, опубликованный в 1997 году группой Ф. Блаттнера (F. Blattner) из университета штата Висконсин, содержит 4 639 221 пар оснований в кольцевой молекуле ДНК.

Геном Е. coli, по сравнению с геномами эукариот, содержит сравнительно мало некодирующей ДНК, распределённой вдоль генома. В Е. coli только 11% ДНК является некодирующей. Приблизительно 89% последовательности несёт информацию о белках или структурных РНК. Аннотация генома показала наличие:

✵ 4285 белок-кодирующих генов;

✵ 122 гена структурных РНК;

✵ некодирующие повторяющиеся последовательности;

✵ регуляторные элементы;

✵ транскрипционные/трансляционные управляющие элементы;

✵ транспозазы (ферменты, связывающие одноцепочечную ДНК и встраивающие последнюю в геномную ДНК);

✵ остатки профагов;

✵ инсерционные элементы последовательностей;

✵ вставки нетипичных фрагментов, предположительно инородных элементов, полученные вследствие горизонтального переноса генов (см. п. 13.3).

Анализ последовательности генома заключался в идентификации и аннотации белок-кодирующих генов и других функциональных областей. Поскольку Е. coli в качестве модельного организма исследовался задолго до начала полногеномных проектов, то многие белки Е. coli были известны ещё до того, как секвенирование было завершено. 1853 белка были описаны ещё до публикации геномной последовательности.

По аналогии с гомологами, найденными в базах данных последовательностей, стало возможным предсказать функции также другим генам. Чем уже область специфичности функций этих гомологов, тем более точно могло быть определено их распределение. В настоящее время приблизительно двум третям белковых генов белков могут быть сопоставлены основные функции.

Другие области генома, такие как регуляторные сайты или мобильные генетические элементы, также опознаны на основе сходства с последовательностями известных гомологов из других организмов.

Распределение белок-кодирующих генов по геному Е. coli не подчиняется каким-либо формальным правилам, ни по положению на хромосоме ДНК, ни по ориентации. Сравнение различных штаммов показывает, что положение генов непостоянно.

Геном Е. coli представляет собой относительно плотно упакованные гены. Гены, несущие информацию о белках или структурных РНК, занимают примерно 89% последовательности.

Средний размер открытой рамки считывания (ORF) составляет 317 аминокислот. Если бы даже гены были распределены равномерно, то среднее межгенное расстояние составляло бы 130 пар оснований; наблюдаемое же среднее расстояние между генами - 118 bp. Кроме того, расстояние между генами значительно варьируется. Есть большие межгенные участки. Они содержат регуляторные сигналы и повторяющиеся последовательности. Самый длинный межгенный участок (1730 пар оснований) содержит некодирующие повторяющиеся последовательности.

Приблизительно три четверти транскрипционных единиц содержат только 1 ген; оставшиеся содержат несколько последовательных генов или оперонов. Было оценено, что геном Е. coli содержит 630-700 оперонов. Опероны варьируются в размере, хотя только некоторые содержат больше, чем 5 генов. Гены внутри (одного) оперона, как правило, имеют взаимосвязанные функции.

В некоторых случаях одна и та же последовательность ДНК кодирует части более чем одной полипептидной цепи. Например, один и тот же ген кодирует и τ-, и у-субъединицы ДНК полимеразы III. Трансляция полного гена формирует т-субъединицу. у-Субъединица гомологична двум третям N-конца т-субъединицы. Сдвиг рамки кодирования на рибосоме в этой точке ведет к обрыву роста цепи в 50% случаев, вызывая в соотношении 1:1 синтез как т-, так и у-субъединиц.

Не существует перекрывающихся генов, в которых различные рамки считывания кодируют различные экпрессируемые белки.

В других случаях одни и те же полипептидные цепи присутствуют в нескольких разных ферментах. Белок, который сам по себе функционирует как липоатдегидрогеназа, в тоже время является и субъединицей пируватдегидрогеназы, 2-оксоглутарат-дегидрогеназы и глицинового расщепляющего комплекса (см. п. 14.5).

Имея в распоряжении полностью секвенированный геном, возможно протестировать весь протеом Е. coli.

Самый большой класс белков - это ферменты; кодирующие их последовательности занимают примерно 30% от всех генов.

Многие ферментативные функции распределены по нескольким белкам. Некоторые из таких наборов функционально сходных ферментов чрезвычайно подобны. Вероятно, они появились в результате дупликации генов либо в самой Е. coli, либо в её предках.

Другие наборы функционально сходных ферментов имеют очень несхожие последовательности и различаются по специфичности, регуляции или внутриклеточной локализации.

Некоторые особенности набора ферментов Е. coli обеспечивают ту метаболическую гибкость, которая позволяет Е. coli расти и конкурировать при изменении внешних условий.

Е. coli самостоятельно синтезирует все мономеры белков и нуклеиновых кислот (аминокислоты и нуклеотиды) и кофакторы.

Е. coli обладает метаболической гибкостью: возможны как анаэробный так и аэробный метаболизмы с использованием различных способов запасания энергии. Е. coli может расти на многих различных источниках углерода и азота. Не все метаболические пути постоянно активны; они активизируются в ответ на изменения во внешних условиях.

Большой набор мембранных белков-транспортёров позволяет использовать множество типов питательных веществ.

Даже для специфических метаболических реакций существует большое количество различных ферментов. Это позволяет перестраивать метаболизм при изменении внешних условий. Сложные регуляторные механизмы встроены в интегральную экспрессию белков.

Тем не менее, бактерия Е. coli не является полностью метаболически автономной. Она, например, не может фиксировать СO2 или N2.

Геном Mycoplasma genitalium. В качестве примера прокариотического генома одного из наиболее просто организованных организмов рассмотрим геном Mycoplasma genitalium.

Mycoplasma genitalium - это патогенная бактерия, вызывающая негонококковый уретрит. Её геном был секвенирован в 1995 году при сотрудничестве групп Университета Джонса Хопкинса (The Johns Hopkins University) и Университета Северной Каролины (The University of North Carolina). Геном M. genitalium представляет из себя одну молекулу ДНК, содержащую 580 070 bp. Это наименьший из известных сегодня геномов. Таким образом, М. genitalium является модельным организмом, на примере которого можно пытаться создать минимальный организм, способный к независимой жизни.

Геном М. genitalium является плотным в кодирующих участках. Для 468 генов были найдены соответствующие им белки; 85% всей последовательности является кодирующей. Средняя длина кодирующего региона - 1040 bp. Как и у других бактерий, кодирующие регионы не содержат интронов. Дальнейшее сжатие генома достигается перекрыванием генов. По-видимому, многие перекрывания возникли при утере стоп-кодонов.

Часть генов бактерии М. genitalium кодируют белки важные для её независимого воспроизведения (участвующие в репликации ДНК, транскрипции, трансляции и т. д.), рибосомальные и транспортные РНК. Другие гены нужны только для патогенной деятельности. Они кодируют белки адгезины, участвующие в связывании с инфицированной клеткой, другие белки для защиты от иммунной системы хозяина и множество транспортных белков. Как следствие паразитического образа жизни в геноме отсутствуют гены многих метаболических ферментов, в том числе, как считается некоторыми исследователями, обеспечивающих биосинтез аминокислот.





Для любых предложений по сайту: [email protected]