Основы биоинформатики - Огурцов А.Н. 2013

Информационные принципы в биотехнологии
Функционирование и организация геномов
Проблемы анализа генов

Успешное секвенирование полных геномов организмов на первых порах породило иллюзию достаточности определения нуклеотидной последовательности хромосом организмов для непосредственного получения информации о структуре и функциях закодированных в геноме биологических макромолекул. Действительность оказалась существенно менее оптимистичной. Сама по себе фиксация биологических последовательностей оказалась только "вершиной айсберга" проблем, которые следовало решить, чтобы имеющиеся результаты секвенирования могли быть преобразованы во внятные ответы на вопросы о биологическом смысле тех или иных макромолекул и в рекомендации о промышленном использовании биоинформации этих последовательностей для производства новых продуктов.

Рассмотрим определённый ген, содержащийся в данном геноме, который кодирует отдельный белок. Только в простейшем случае геномов прокариот этот ген представляет собой последовательность нуклеотидов одного участка ДНК. У эукариот большинство генов "разбросаны" по разным участкам молекулы ДНК и определение структуры и локализации этого гена в геноме является нетривиальной задачей.

Последовательность ДНК коллинеарна последовательности белка. У видов, у которых генетический материал представлен двухцепочечной ДНК, гены могут находиться на любой из цепей.

Бактериальные гены представляют собой непрерывные участки ДНК. Таким образом, функциональная единица генетической информации у бактерий представляет собой последовательность 3N нуклеотидов, которая кодирует последовательность N аминокислот, или же последовательность N нуклеотидов, кодирующую молекулу структурной РНК

(например, рибосомальной) из N остатков. Такая последовательность, снабжённая аннотациями, может быть сохранена в виде типичной записи одного из архивов генетических последовательностей.

У эукариот последовательности нуклеотидов, кодирующие аминокислотные последовательности отдельных белков, организованы более сложным образом. Здесь совершенно иная зависимость между размерами гена и закодированного в нем белка, чем у бактерий. Часто один ген представлен в виде отдельных сегментов геномной ДНК.

Экзон - это участок ДНК, сохраняемый в матричной РНК, которую рибосома транслирует в белок. Интрон - это промежуточный участок ДНК между двумя экзонами. Клеточные механизмы осуществляют сплайсинг определённых сегментов в РНК-транскриптах, основываясь на сигнальных последовательностях, которые фланкируют экзоны (см. [7], п. 2.4). Многие интроны являются очень длинными - намного длиннее, чем экзоны.

Регуляторные механизмы организуют экспрессию генов. Гены могут быть включены или выключены (или отрегулированы более тонко) в ответ на различные концентрации питательных веществ, на стресс, или на сложные программы развития тканей и органов в течение жизни организма.

Множество управляющих участков ДНК расположены вблизи участков, кодирующих белки. Они содержат последовательности, которые служат в качестве сайтов связывания молекул, транскрибирующих ДНК, или последовательности, связывающие регуляторные молекулы (индукторы, активаторы, репрессоры), которые могут управлять скоростью транскрипции (см. [7], пп. 3.1-3.5). Анализ генома должен включать и расшифровку таких "административных" некодирующих участков ДНК.

В бактериальных геномах соседние гены, которые кодируют несколько белков, катализирующих последовательные стадии одного биохимического пути, объединены в опероны. Гены, входящие в оперон, совместно включаются и выключаются, поскольку находятся под контролем общей регуляторной последовательности (см. [7], п. 2.3).

У животных механизмы метилирования ДНК обеспечивают тканеспецифичную дифференциальную экспрессию генов в процессе развития.

Продукты определённых генов запускают апоптоз клеток и нарушения в механизме апоптоза, ведущие к бесконтрольному росту клеток ткани, характерны для некоторых видов раковых опухолей. Блокирование этих механизмов является основным подходом при лечении рака.

Таким образом, сведение генетической информации только лишь к отдельным кодирующим ДНК-последовательностям неизбежно приводит к потере информации об очень сложной природе взаимодействий между ними и другими молекулярными компонентами, обеспечивающими экспрессию данного гена в нужное время в нужной клетке и с необходимой интенсивностью, и к игнорированию исторических и интегративных аспектов генома.

Образно можно представить геном человека, содержащий около трёх гигабайт информации, в виде трёх гигабайтов файлов на жёстком диске компьютера. Секвенирование этого генома эквивалентно получению образа жёсткого диска. Сам этот образ будет в себе содержать не только интересующие нас файлы (фрагменты которых могут быть разбросаны по всему диску), но также и остатки стёртых ранее файлов, которые представляют собой тот мусор, из которого нужно извлечь и восстановить функциональные файлы-гены нашего генома. Но и это ещё не всё, ведь для понимания работы всего компьютера как целого простого восстановления файлов с диска мало, нужно ещё исследовать все технологии и инженерные решения, которые были использовании при создании всех тех устройств, совместная работа которых по "обслуживанию" файловой системы жёсткого диска и представляет собой исправно функционирующий компьютер. В этом примере компьютер представляет собой организм, функционирование которого определяется "файловым" геномом, но не сводится к нему.

Генетический код непосредственно связывает последовательность аминокислот в белке с последовательностью нуклеотидов в ДНК. Сегодня информацию о последовательности нового белка чаще получают в результате анализа генома, чем в результате прямого секвенирования белка.

Первой проблемой, которая возникает при такого рода анализе, является достоверность предсказаний новых белков по последовательностям ДНК. Компьютерные программы распознавания белок- кодирующих последовательностей внутри молекул ДНК не застрахованы от трёх типов ошибок:

1) предсказываемая первичная структура белка отлична от истинной;

2) предсказан неверный сплайсинг РНК-транскрипта;

3) белок описан не полностью.

Помимо этих тривиальных ошибок существуют ещё несколько проблем, существенно усложняющих предсказание белка.

Прежде всего, наличие альтернативного сплайсинга в разных клетках разных тканей (см. [7], п. 2.5) приводит к существованию целого спектра родственных белков в пределах даже одного организма.

Кроме того, даже те генетические последовательности, которые выглядят правдоподобно и которые, казалось бы, должны кодировать белки, могут быть либо дефектными следами миллиардов лет эволюции в геноме, либо просто быть неэкспрессируемыми.

Таким образом, общее правило при предсказании белков на основе анализа генетической информации состоит в следующем: белок, полученный по геномной последовательности, является гипотетическим объектом до тех пор, пока его существование не будет обнаружено экспериментально.

Второй блок проблем связан с посттрансляционными модификациями белков. Очень часто продуктом экспрессии гена является молекула белка, которая в дальнейшем должна быть преобразована в клетке. В результате такого преобразования может образоваться функциональная молекула нативного белка, которая радикально отличается от того белка, который был предсказан расшифровкой генной последовательности.

Прежде всего, в результате модификации боковых радикалов аминокислот (метилирование, ацетилирование, фосфорилирование, карбоксилирование, гидроксилирование, гликозилирование и т. д.), которые преимущественно осуществляются ферментами эндоплазматического ретикулума и аппарата Гольджи, может как измениться аминокислотный состав белка, так и возникнуть гибридное соединение полипептида с липидами и олигосахаридами (см. [6], п. 6.5.3).

Правильное гликозилирование синтезируемых белков особенно важно при производстве лекарственных препаратов. Например, белки крови человека различных групп (О, А, В, AB) различаются именно различными углеводными радикалами, которые присоединяют к ним специфические гликозилтрансферазы.

Другой важный тип посттрансляционных модификаций заключается в протеолитическом разрезании исходной белковой цепи. Именно таким образом активируются ферменты, которые задействованы в процессах пищеварения, сворачивания крови и апоптоза (см [9], п. 12.1).

Наглядным примером активации белков протеолизом является биосинтез инсулина. Инсулин исходно транслируется в виде полипептида проинсулина (рисунок 74), состоящего из 84 аминокислот. Именно в таком виде происходит фолдинг белка, затем образуются три внутримолекулярные дисульфидные связи и только после этого из проинсулина вырезается С-участок (из 33 аминокислот) и остаётся 51-аминокислотная функциональная молекула гормона, состоящая из двух полипептидных цепей: цепь А из 21 аминокислоты и цепь В из 30 аминокислот.

К посттрансляционным модификациям также относится присоединение простетических групп, например, ковалентное присоединение группы гема в цитохроме с.

Отметим, что образование дисульфидных мостиков, без которого невозможно функционирование многих белков (как, например, инсулина) невозможно предсказать ни при анализе нуклеотидной последовательности ДНК, ни при анализе соответствующей аминокислотной последовательности белка. Это же касается и предсказания структуры белка по структуре гена, при экспрессии которого происходит сплайсинг мРНК.

Рисунок 74 - Первичная структура проинсулина

Третьей проблемой, возникающей при анализе генома, является то, что геном организма даёт полный, но статический набор характеристик потенциально возможных макромолекулярных структур этого организма. Реальное функционирование данного организма в данное время и в данных условиях определяется на молекулярном уровне интенсивностью экспрессии определённых генов и распределением продуктов этой экспрессии по тканям и органам организма.

Для характеристики набора всех белков, которые наличествуют в данном организме в данное время, используют понятие протеом организма (см. п. 6.4). Протеом организма изменяется с течением времени.

На рисунке 75 приведены интенсивности экспрессии белков циклинов в различных тканях и органах, полученные с помощью ДНК-микро-матриц.

Рисунок 75 - Уровень экспрессии циклинов в разных тканях и органах: 1 - А; 2-B; 3-C; 4-D1; 5-D2; 6-D3; 7-E; 8-F; 9-G; 10-Н; 11-1

Циклины - это семейство белков, являющихся активаторами циклин-зависимых протеинкиназ (CDK) (cyclin-dependent kinases) - ключевых ферментов, участвующих в регуляции клеточного цикла эукариот. Циклины получили свое название в связи с тем, что их внутриклеточная концентрация периодически изменяется по мере прохождения клеток через клеточный цикл, достигая максимума на его определённых стадиях. Из рисунка 2 видно, что в данный момент времени концентрация циклинов в различных тканях и органах существенно различается. Анализ таких "фингерпринтов" множественной экспрессии позволяет обнаружить корреляции (как позитивные, так и негативные) в функционировании различных клеток единого организма.

Систематическим анализом профилей синтеза белков в различных тканях организма и анализом зависимости этих профилей от внешних факторов и стадии развития организма занимается протеомика (см. п. 6.4).

Протеом отражает биологическую активность генома в динамике.

Образно говоря, если представить геном как партитуру симфонии, то протеом - это оркестр, исполняющий симфонию.





Для любых предложений по сайту: [email protected]