Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014
Сравнительное моделирование структуры белков
Этапы сравнительного моделирования структуры белков
Поиск структур, потенциально родственных с мишенью
Сравнительное моделирование обычно начинается с поиска в базе данных Protein Data Bank (PDB) (Berman et al. 2007) белков известной структуры, при этом последовательность мишени используется в качестве запроса. Этот поиск, как правило, осуществляется посредством сравнения последовательности мишени с последовательностью каждой из структур в базе данных.
Существует два основных класса методов сравнения белков, которые используются при определении способов укладки. Методы одного класса выполняют сравнение последовательности мишени с каждым из шаблонов в базе данных независимо и реализуются с помощью парного сравнения последовательностей (Apostolico and Giancarlo 1998). К настоящему времени проведена полная оценка этих методов поиска последовательностей (Pearson 2000; Sauder et al. 2000) и определения способов укладки (Brenner et al. 1998). Наиболее популярными программами этой группы являются FASTA (Pearson 2000) и BLAST (Schaffer et al. 2001). Для повышения чувствительности при поиске последовательностей можно использовать информацию об эволюции белков в форме множественного выравнивания последовательностей (Altschul et al. 1997; Henikoff et al. 2000; Krogh et al. 1994; Marti-Renom et al. 2004; Rychlewski et al. 2000). В таких методах сначала осуществляется поиск всех имеющихся в базе данных последовательностей, для которых можно установить четкую связь с мишенью и легко осуществить выравнивание. Множественное выравнивание этих последовательностей является профилем последовательности мишени, в котором в неявном виде содержится дополнительная информация о расположении и паттерне эволюционно консервативных остатков белка. Наиболее широко известная программа из этого класса - PSI-BLAST (Altschul et al. 1997), в которой применяется алгоритм эвристического поиска коротких мотивов. Следующий шаг в направлении повышения чувствительности метода - предварительный расчет профилей последовательностей для всех известных структур и дальнейшее использование алгоритма парного динамического программирования для сравнения двух профилей. Этот прием применялся, среди прочих программ, в COACH (Edgar and Sjolander 2004) и FFAS03 (Jaroszewski et al. 1998, 2005). Построение скрытых марковских моделей (СММ) на основе профилей - еще один чувствительный метод определения универсальных консервативных мотивов в последовательностях (Karplus et al. 1998). Значительного улучшения методов, основанных на СММ, удалось достичь за счет включения информации о предсказанных элементах вторичной структуры (Karchin et al. 2003; Karplus et al. 2005). Еще одна разработка, используемая в этой группе методов, состоит в применении СММ, основанных на филогенетических деревьях, когда отбор различных подмножеств последовательностей для анализа профиля СММ осуществляется в каждом узле эволюционного дерева (Edgar and Sjolander 2003). Способствовать поиску шаблона может также определение промежуточных последовательностей, которые гомологичны обеим рассматриваемым последовательностям (John and Sali 2004; Sauder et al. 2000). Эти более чувствительные методы определения способа укладки особенно полезны при поиске выраженных структурных связей, когда идентичность последовательностей мишени и образца составляет менее 25%. Более точные профили последовательностей и структурные выравнивания можно построить с помощью методов, основанных на согласовании, таких как T-Coffee (Moretti etal. 2007), PROMAL (и PROMAL3D для структур) (Pei and Grishin 2007; Pei et al. 2008), ProbCons (Do et al. 2005) и др. Более подробную информацию о методах множественного выравнивания последовательностей можно найти в последних обзорах (Edgar and Batzoglou 2006; Notredame 2007).
В основу второго класса методов положено парное выравнивание последовательности белка и структуры белка; при этом осуществляется поиск соответствия между последовательностью мишени и пространственными профилями из базы данных или “протягивание” через библиотеку типов пространственной укладки. Этот класс методов также называют определением типа укладки, протягиванием или сопоставлением пространственных шаблонов (Bowie et al. 1991; Finkelstein and Reva 1991; Jaroszewski et al. 1998; Jones 1999; Shi et al. 2001; Sippl 1995). Они подробно обсуждались в главе 2 и особенно полезны, когда составление профилей последовательностей невозможно в силу недостатка известных последовательностей, для которых можно установить четкую связь с мишенью или потенциальными шаблонами.
Методы поиска шаблонов “превосходят” потребности сравнительного моделирования в том смысле, что они позволяют обнаруживать последовательности настолько отдаленные, что построение надежных сравнительных моделей для них невозможно. Причина этого в том, что установление взаимосвязей между последовательностями часто основано на коротких консервативных сегментах, в то время как для успешного выполнения сравнительного моделирования требуется общее корректное выравнивание всей моделируемой части белка. В этом заключается важное различие между распознаванием укладки и сравнительным моделированием: оба метода основаны на использовании шаблонов и нацелены на создание описания пространственной структуры мишени, однако целью методов распознавания укладки является определение общей пространственной формы последовательности мишени или по крайней мере класса форм, к которому мишень принадлежит, тогда как сравнительное моделирование нацелено на создание полноатомной модели последовательности мишени.