Основы биоинформатики - Огурцов А.Н. 2013
Основания биоинформатики
Биологические последовательности
Информация в молекулярной биологии
В информационном архиве (геноме) каждого организма содержится детальный план будущего развития и функционирования этого индивидуума. Молекулы ДНК - это длинные, линейные, цепочечные молекулы, представляющие собой строки, записанные четырёхбуквенным алфавитом (рисунок 6)
Рисунок 6 - Схема строения ДНК: а - ван-дер-ваальсовая модель, б - схема химических связей в ДНК
Даже геномы микроорганизмов представляют собой очень длинные строки, обычно состоящие из миллионов букв. При записи любой нуклеиновой кислоты в виде строки символов принято изображать нуклеотиды строчными английскими буквами:
В структуре ДНК полностью оговорены механизмы репликации и переноса информации с гена на белок. Почти безупречная репликация необходима для стабильности наследственности. Небольшая неточность в репликации, как и механизм импорта инородного генетического материала, также необходима, иначе организмы, не имеющие полового размножения, не могли бы эволюционировать. Цепи двойной спирали антипараллельны. Концы носят названия 3' и 5' по позициям в дезоксирибозном кольце. При транскрипции ДНК считывается в направлении от 3' к 5', а при трансляции мРНК считывается в направлении от 5' к 3' (см. [7], п. 2.1 и 5.1). Генетическая информация реализуется через синтез РНК и белков. Белки - это молекулы, отвечающие за жизнедеятельность большинства структур организма. Наши волосы, мышцы, пищеварительная система, рецепторы и антитела - все это белки. Как и нуклеиновые кислоты, белки
- это длинные линейные цепочечные полимеры, состоящие из мономеров
- аминокислот. Двадцать природных (протеиногенных) аминокислот по полярности бокового радикала можно разделить на неполярные, полярные и заряженные.
Мы будем использовать однобуквенные обозначения аминокислот прописными латинскими буквами следующим образом:
Неполярные аминокислоты: |
||
G - глицин (Gly) |
А - аланин (Ala) |
Р - пролин (Pro) |
V - валин (Val) |
I - изолейцин (Не) |
L - лейцин (Leu) |
F - фенилаланин (Phe) |
М - метионин (Met) |
|
Полярные аминокислоты: |
||
S - серин (Ser) |
С - цистеин (Cys) |
Т - треонин (Thr) |
N - аспарагин (Asn) |
Q - глутамин (Gln) |
Y - тирозин (Туr) |
W - триптофан (Тrр) |
||
Заряженные аминокислоты: |
||
D - аспарагиновая кислота (Asp) |
К - лизин (Lys) |
|
Е - глутаминовая кислота (Glu) |
R - аргинин (Arg). |
Генетический код - это шифр: триплеты букв из последовательности ДНК обозначают аминокислоты (таблица 2).
Таблица 2 - Стандартный генетический код
Первый нуклеотид |
Второй нуклеотид |
Третий нуклеотид |
|||
u |
c |
а |
g |
||
u |
Phe |
Ser |
Tyr |
Cys |
u |
Phe |
Ser |
Tyr |
Cys |
с |
|
Leu |
Ser |
STOP |
STOP |
а |
|
Leu |
Ser |
STOP |
Trp |
g |
|
с |
Leu |
Pro |
His |
Arg |
u |
Leu |
Pro |
His |
Arg |
с |
|
Leu |
Pro |
Gln |
Arg |
а |
|
Leu |
Pro |
Gln |
Arg |
g |
|
а |
Ile |
Thr |
Asn |
Ser |
u |
Ile |
Thr |
Asn |
Ser |
с |
|
Ile |
Thr |
Lys |
Arg |
а |
|
Met (START) |
Thr |
Lys |
Arg |
g |
|
д |
Val |
Ala |
Asp |
Gly |
u |
Val |
Ala |
Asp |
Gly |
с |
|
Val |
Ala |
Glu |
Gly |
а |
|
Val |
Ala |
Glu |
Gly |
g |
В участках ДНК зашифрованы аминокислотные последовательности белков. Обычно белки состоят из 200-400 аминокислот, что требует 600-1200 нуклеотидов ДНК для их кодирования. Синтез молекул РНК, например, РНК-компонентов рибосом, также определяется последовательностью нуклеотидов в ДНК. Однако в большинстве организмов не вся ДНК кодирует РНК или белки. Некоторые участки последовательности ДНК существуют для управления процессами транскрипции и репликации, а большая часть генома всё ещё не исследована и её функции пока не известны. Молекулы ДНК, содержащие стандартные четыре "нуклеотидные" буквы (а, с, g, t), сходны по химическому строению, а сама пространственная структура молекулы ДНК в первом приближении однородна.
Белкам же, наоборот, свойственно большое разнообразие трёхмерных конформаций. Эти конформации необходимы белкам для выполнения их разнообразных структурных и функциональных ролей. Последовательность аминокислот в белке - первичная структура белка - определяет его трёхмерную структуру. Для каждой природной аминокислотной последовательности существует уникальное стабильное нативное состояние - третичная структура, - в которое эта последовательность спонтанно переходит в нормальных условиях (см. [9], п. 4.3).
Если очищенный белок нагреть или каким-нибудь другим образом перевести в условия, которые сильно отличаются от естественных физиологических условий организма, то он "разворачивается", денатурирует, образуя беспорядочную биологически неактивную структуру. Именно поэтому в нашем организме существуют механизмы для поддержания относительно постоянных внутренних условий (см. [13], п. 2.4).
При восстановлении же нормальных условий полипептидные молекулы вновь приобретают свою функциональную третичную структуру, которая неотличима от нативной структуры природного происхождения (см. [9], п. 4.5).
Спонтанное сворачивание белков - фолдинг — с целью формирования их нативной структуры является точкой, в которой Природа совершает гигантский прыжок от одномерных генетических и пептидных последовательностей к трёхмерному миру, в котором мы все живем.
Однако существует следующий парадокс.
С одной стороны, трансляцию последовательностей ДНК в последовательности аминокислот очень легко описать логически - она определяется генетическим кодом. А сворачивание полипептидной цепи в точно определенную трехмерную структуру очень трудно описать логически. С другой стороны, для осуществления трансляции необходимы исключительно сложный механизм работы рибосомы, транспортные РНК (тРНК) и связанные с ними молекулы (см. [7], п. 5). А сворачивание белков происходит самопроизвольно без посторонней помощи (см. [9], п. 4.5).
Функции белков зависят от приобретения ими нативной третичной структуры. Например, нативная структура фермента может иметь на своей поверхности впадину (активный центр), которая связывает одну малую молекулу субстрата и помещает её рядом с аминокислотными остатками каталитического центра.
Таким образом, мы имеем следующие информационно-управляемые зависимости:
✵ Последовательность нуклеотидов ДНК определяет последовательность аминокислот белка.
✵ Последовательность аминокислот определяет структуру белка.
✵ Структура белка определяет его функцию.
В большинстве своём биоинформатика как раз и занимается анализом данных, связанных с этими процессами.
На данный момент эта парадигма не охватывает уровни выше, чем молекулярный уровень структуры и организации. В том числе, например, из поля зрения выпадают такие вопросы, как специализация тканей во время развития или, в более обобщённом смысле, влияние условий окружающей среды на генетические события.
В некоторых тривиальных случаях простых обратных связей легко понять молекулярные механизмы того, как увеличение количества субстрата приводит к повышению продуктивности фермента, который катализирует трансформацию этого субстрата (см. [9], п. 15.1). Более сложными являются программы развития организма в течение его жизни.
Эти фундаментальные вопросы о потоке информации и регуляции этого потока внутри организма сейчас начинают активно изучаться методами биоинформатики.