Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014
Предсказание функции белков на основе их теоретических моделей
Введение
Ивона А. Симерман, Дэниэл Дж. Ригден, Януш М. Бужницки
В настоящее время моделирование на основании гомологии уже является сложившейся методикой, а моделирование de novo дает ценную информацию для небольших белков с не встречавшейся ранее укладкой. Успехи в области предсказания функции белка на основе его структуры, получившие развитие благодаря проектам по структурной геномике, привели к появлению целого набора методов, применимых к моделям любого происхождения. Есть, однако, и важные ограничения в точности моделей и, отчасти как следствие, в производительности алгоритмов по предсказанию функции, которые эти модели анализируют. Тем не менее, эта глава показывает, как функция белка может быть освещена с разных сторон различными методами моделирования, что зачастую облегчает планирование и объяснение результатов эксперимента. В то же время в установлении плодотворного диалога между моделистами и биологами-экспериментаторами остаются важные вопросы, решение которых позволит расширить практическое применение результатов моделирования. Базы данных, содержащие как сами модели белков, так и индикаторы их точности и надежности, в будущем могут иметь важное значение.
Iwona А. Су merman
International Institute of Molecular and Cell Biology,
Trojdena 4, 02-109 Warsaw, Poland
Daniel J. Rigden
School of Biological Sciences, University of Liverpool,
Liverpool L69 7ZB, UK
Janusz M. Bujnicki
Institute of Molecular Biology and Biotechnology,
Faculty of Biology, Adam Mickiewicz
University, Umultowska 89, 61-614 Poznan', Poland e-mail: [email protected]
Стремительный прогресс вычислительной техники и рост возможностей по обмену данными, наблюдаемые в последние десятилетие, сильно повлияли на направление и методологию биологических исследований. Этот прогресс сделал возможным создание масштабных проектов, примерами которых являются проект по секвенированию генома, разработка микрочипов и структурная геномика. Это, в свою очередь, изменило направление отдельных исследований. Таким образом, вместо выявления генов и белков, определяющих наблюдаемый фенотип, ученые часто сосредотачиваются на поиске функций огромного числа последовательностей, содержащихся в базах данных. Очевидно, что изменение описательных подходов на предсказательные требует разработки новых методов. Самой важной информацией о конкретном гене или белке является связанная с ним функция. Наиболее общий подход в предсказании функции основывается на наблюдении, что имеющие сходную последовательность белки часто имеют и сходную функцию. Все возрастающее число доступных последовательностей способствует тому, что схожие последовательности могут быть выровнены и объединены в семейства. Если функция одного из членов семейства известна, то предполагается, что и остальные последовательности в семействе “наследуют” эту функцию. Это предположение ставит вопрос о том, нужно ли знание пространственной структуры белка для предсказания его функции или достаточно информации, содержащейся в последовательности. На первый взгляд можно ответить, что это зависит от сходства между сравниваемыми белковыми последовательностями. Общепринято, что идентичность последовательностей, превышающая 30%, является сильным аргументом в пользу того, что белки будут иметь очень сходную структуру, которая может быть предсказана методами, основанными на гомологии (Глава 3), давая в целом точные модели. Ниже этого порога, однако, предсказание структуры белка требует более изощренных подходов (таких, например, какие были описаны в Главах 1 и 2) и не является столь точным. Поскольку функция зависит от структуры, можно было бы подумать, что схожесть последовательностей определяет и схожесть функций, однако это необязательно, поскольку значительные вариации функции наблюдаются даже для белков с очень сходными последовательностями и структурами. Например, аннотации функций, основанные на данных генной онтологии (ГО, Gene Ontology) консервативны лишь для 80% белковых пар даже в тех случаях, когда белки имеют 90-100% идентичность последовательностей; если их идентичность ниже 30%, это консервативность аннотаций опускается ниже 50%. Некоторые аспекты функции является более консервативными, чем остальные, например, если функция ферментов рассматривается согласно системе КФ, то все четыре индекса будут такими же с вероятностью почти 100% при идентичности последовательностей выше 70%, в то время как для последовательностей с идентичностью ниже 30% вероятность сохранения всех четырех индексов КФ падает ниже 50% (Tress et al. 2008).
Сохранение функции является более сложным явлением, чем сохранение структуры, поскольку перекрывание функций (например, идентичная функция двух копий гена после дупликации) подвержено увеличению скорости эволюции, которое, однако, зависит от полезности той функции белка, которая была закодирована в гене, позже подвергшемся дупликации (Jordan et al. 2004). Таким образом, дупликация, которая дает появление па- ралогичных белков с почти идентичными последовательностями и структурами, приводит либо к потере одной из копий из-за инактивирующей мутации (т.е. возвращению к предшествующему состоянию), либо к изменению функций одной или обеих копий, что уменьшает перекрывание.
С другой стороны, ортологичные последовательности имеют тенденцию к сохранению идентичных функций, зачастую несмотря на значительное различие в них самих. Однако парное сравнение последовательностей не позволяет нам различить ортологи и паралоги, и, таким образом, оказывается неподходящим для аннотирования функции. Существует ряд методов, которые выполняют предсказание функции на основе эволюционного анализа и различают паралоги и ортологи (напр. FlowerPower (Krishnamurthy et al. 2007)), но применение этих методов требует наличия большого числа последовательностей с относительно равномерной скоростью расхождения, по которым и восстанавливается предполагаемая картина дупликации. Кроме того, эти методы наталкиваются на трудности в тех случаях, когда последовательности утрачивают общую функцию, несмотря на то, что являются ортологами.
Анализ консервативности функции может быть значительно облегчен, если рассматривать последовательность не только как линейную цепочку аминокислотных остатков, но и в контексте её пространственной структуры. Поскольку обычно функция белка обеспечивается аминокислотными остатками, которые расположены близко в пространстве, но не обязательно находятся рядом в последовательности, то рассмотрение этой функции может быть ограничено лишь анализом конкретного функционального сайта. Таким образом, для консервативности функции обычно необходима лишь консервативность пространственного расположения ключевых аминокислотных остатков, а не полная идентичность последовательностей. Это может быть проиллюстрировано простым примером: исчезновение всего лишь одного остатка из каталитического центра почти не сказывается на сходстве последовательностей в целом, но обычно приводит к полной утрате одной из функций белка (например, белок по- прежнему может связывать субстрат, но уже не катализирует его превращение, для которого была необходима функциональная группа исчезнувшего остатка). Таким образом, сравнение остатков в функциональном сайте и анализ таких нечетко определенных свойств, как различные особенности поверхности белка (Главы 7 и 8), больше подходят для сравнительного анализа функций, чем рассмотрение последовательностей. Но такой анализ, очевидно, требует наличия пространственной структуры белка, и в этой главе мы обсудим, какой вклад компьютерное моделирование может внести в получение таких структур и, в особенности, покажем, как модели позволяют улучшить наше понимание функционирования белка.