Основы биоинформатики - Огурцов А.Н. 2013

Информационные принципы в биотехнологии
Анализ и предсказание белков
Проблема расшифровки белковых структур

Одной из главных целей информационной биотехнологии является установление функциональной зависимости между последовательностью аминокислот и пространственной структурой белка. Если такая зависимость будет установлена, то можно будет достаточно точно предсказывать структуру белка по последовательности аминокислот, а следовательно основная задача информационной биотехнологии - информационное конструирование целевого биотехнологического продукта - станет разрешимой и экономически эффективной. Недавние успехи в решении проблемы предсказания структуры по последовательности стали возможными благодаря новым методам и информационным ресурсам.

По сравнению с алфавитом нуклеиновых кислот (4 основания), алфавит белков (20 аминокислот) позволяет кодировать несоизмеримо большее число вариантов структур и функций; прежде всего это связано с тем, что различия в химическом строении аминокислотных остатков выражены сильнее, чем в строении нуклеотидов.

Каждый аминокислотный остаток может влиять на общие физические свойства белка, потому что исходная аминокислота имеет основные или кислотные свойства, является гидрофобной или гидрофильной и имеет структуру прямой или разветвленной цепи или же содержит в своём составе ароматическое кольцо.

Таким образом, каждая аминокислота в белковой цепи несёт в себе некое качество для формирования в пределах белкового домена структуры определённого типа (конформации, которая однозначно определяется аминокислотной последовательностью).

Многочисленные наблюдения показывают, что денатурированный белок, при возвращении реакционной среды в исходное состояние, спонтанно свёртывается в уникальную трёхмерную нативную конформацию. Этот факт свидетельствует о том, что природа имеет алгоритм восстановления структуры белка по последовательности аминокислот. Некоторые попытки понять этот алгоритм базируются исключительно на общих физических принципах; другие - на сравнительном анализе известных аминокислотных последовательностей и структур некоторых белков.

Только тогда мы сможем уверенно утверждать о том, что этот природный алгоритм усвоен человечеством, когда будет создана компьютерная программа, которая сможет успешно прогнозировать трёхмерную структуру различных белков по их аминокислотным последовательностям.

Понимание структуры белка ведёт к пониманию его функции и механизма активности. В настоящее время существует большой разрыв между количеством расшифрованных последовательностей и числом известных структур. Этот разрыв называют "пропастью последовательность-структура" (protein sequence-structure gap). Он же является главным стимулом для развития методов предсказания структуры белков. Предсказать структуру означает установить относительное расположение всех атомов белковой молекулы в трёхмерном пространстве, располагая лишь информацией о первичной последовательности.

Предсказание структуры выполняют различными методами: сравнительного моделирования, распознавания свёрток, предсказания вторичной структуры, предсказания ab initio и предсказания, основанного на знаниях. Алгоритмы, построенные на методах анализа знаний, пытаются предсказывать структуру белка на основании информации, почерпнутой из базы данных известных структур.

Большая часть алгоритмов предсказания структуры белка, опирающихся только на основные физические принципы (ab initio), пытается учесть все межатомные взаимодействия в белковой молекуле и определить свободную энергию, присущую любой возможной конформации данного белка. В вычислительном аспекте проблема предсказания структуры белка выглядит как задача отыскания глобального минимума функции свободной энергии данной конформации.

Пока что этот подход не преуспел по двум причинам.

Прежде всего, это масштаб (абсолютная величина) проблемы. Средний белок имеет несколько сотен аминокислот. Каждая соединена с соседями двумя гибкими связями, которые имеют целый набор устойчивых конформаций. Кроме того, каждая из аминокислот имеет гибкий боковой радикал, который может тоже принимать много стабильных конформаций. Все вместе эти многочисленные торсионные степени свободы определяют невообразимо большое пространство конформаций, оперировать которым не в состоянии даже самые современные суперкомпьютеры.

Вторая проблема лежит в методе, который используется для оценки стабильности каждой пробной конформации в ходе компьютерного итерационного эксперимента.

Свёрнутый белок имеет тысячи внутренних контактов, каждый из которых вносит ничтожный вклад в стабилизацию общей структуры.

Множество молекул воды высвобождается в ходе фолдинга белка, когда белковые цепи прячут свои гидрофобные участки внутрь глобулы. Это высвобождение молекул воды является значительной силой, заставляющей белки приобретать глобулярную структуру.

С другой стороны, образованию внутрибелковых связей и отрыву молекул воды от белковой нити "сопротивляется" энтропия. С точки зрения снижения энтропии жёсткая белковая глобула, имеющая единственную конформацию, энергетически менее выгодна, чем гибкая расплетённая белковая нить, имеющая огромное множество конформаций.

Энергия, которая выделяется при образовании внутрибелковых контактов и высвобождении молекул воды, расходуется на сворачивание цепи в компактную форму.

В целом для системы эти два противоположных вклада практически уравновешивают друг друга.

Именно эту очень малую разницу, которая и представляет собой энергию стабилизации, мы и должны предсказать, когда пытаемся решить проблему белкового фолдинга, выбирая ту единственную третичную структуру, которая имеет наибольшую энергию стабилизации.

Однако величина этой энергии вычисляется как разность между двумя большими величинами, каждая из которых получена в результате суммирования огромного количества индивидуальных вкладов атомов молекулы белка. Даже малая погрешность определения величины вклада взаимодействий каждого из атомов в белке в результате даёт суммарную (кумулятивную) ошибку, которая больше, чем величина энергии стабилизации.

Оба фактора - и огромное пространство конформаций, и кумулятивные ошибки в целевых функциях, - в сумме сводят на нет предсказания белкового фолдинга.

Наиболее успешные приближения используют упрощённые модели, часто аппроксимирующие белковую цепь некоторым подобием кристаллической решетки, чтобы уменьшить число координат в пространстве конформаций. Однако, эти приближения все ещё далеки от предсказания трёхмерных структур при конструировании биомолекул.

Альтернативу априорным методам представляет гомологическое моделирование - подход, предполагающий восстановление целостной картины структуры белка путём поиска последовательностей, образующих подобные ему структуры. Методы, которые объединяет в себе этот подход, эмпирические, то есть, основаны на экспериментальных данных.

Проанализировав структуру всех белков Базы данных белков (PDB), оказалось, что белки, имеющие около 30% идентичных участков первичной структуры, имеют гомологичные структуры. В этих структурах фолдинг и топология белковой цепи подобны, но локальные детали конкретных петель могут различаться. Гомологическое моделирование использует преимущества этого наблюдения.

Структура нового белка может быть смоделирована на основе структуры известного белка, имеющего подобную аминокислотную последовательность (если, конечно, такая информация существует). Компьютерное моделирование, в таком случае, используется для предсказания структуры свободных петель и для определения координат специфических аминокислот, которыми отличается новый белок от уже изученного.

Для белков, имеющих 60% и более гомологичности в первичной структуре, такие модели могут быть очень точными.

В диапазоне гомологичности 30-60% первичной структуры такие модели могут быть полезны для предсказания общих свойств белковой структуры, таких как идентификация аминокислотных остатков, расположенных на поверхности, или могут быть использованы в предсказании общей формы глобулы.

Если же для данного белка не известны подходящие гомологи, то остается прибегнуть к альтернативному подходу - предсказанию вторичной структуры.

Методы распознавания мотивов (свёрток или фолдов) позволяют обнаружить отдалённые отношения и отделить их от случайных подобий последовательностей, не связанных с общей свёрткой. Разработанные на их основе алгоритмы осуществляют поиск в библиотеке известных структур белка и находят структуру, наиболее подходящую для последовательности запроса, структура которой и должна быть предсказана. После построения выравнивания между последовательностью запроса и отдалённо связанными последовательностями из базы данных может быть получена предполагаемая картина трёхмерной структуры белка.





Для любых предложений по сайту: [email protected]