Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014
Распознавание фолда
Точность выравнивания, качество моделей и статистическая значимость
Алгоритмы создания выравниваний и оценка
Как уже было показано, использование информации о белковой эволюции в форме профилей или скрытых марковских моделей, а также информации о предсказанной вторичной структуре повышает степень определения гомологии, что, как правило, сопровождается соответствующим повышением точности выравнивания (Elofsson 2002). Захария и соавт.
(Zachariah et al. 2005) показали, что при построении выравнивания с помощью динамического программирования использование более точной модели инициации и удлинения разрывов не улучшает процедуру установления гомологии, однако значительно повышает точность выравнивания.
Успешный подход был предложен на последнем совещании CASP (Venclovas and Margelevicius 2005). В этой процедуре ряд последовательностей, которые перекрывают пространство последовательностей между искомой последовательностью и шаблоном (шаблонами), используются для инициирования дополнительных процедур поиска в PSI-BLAST по неизбыточной базе данных последовательностей. Затем выравнивания искомой последовательности относительно шаблона (шаблонов) извлекаются из результатов поиска и проходят процедуру анализа согласованности. Для областей, в которых создается один преобладающий вариант выравнивания, это выравнивание считается достоверным, в то время как области, в которых согласованность выравнивания исследуемой последовательности относительно шаблона отсутствует, определяются как недостоверные. Таким образом, точность выравнивания можно увеличить, осуществив поиск согласованных выравниваний. Эта концепция близка к идее, используемой в 3D-Jury, где осуществляется поиск согласованного решения для пространства структур. Прасад и соавт. (2004) применяют близкий подход, используя пять различных методов для создания выравниваний и поиска среди них согласованного выравнивания.
Тресс и его коллеги (2003) исследовали распределение оценок профилей “остаток-остаток” по длине выравнивания. Было установлено, что области точного выравнивания можно достоверно определять на основе присутствия смежных участков с высокими значениями оценочной функции для остатков.
Как уже упоминалось ранее, подход на основе динамического программирования или СММ гарантирует построение “оптимального” выравнивание при заданной оценочной функции. Однако оценочные функции не совершенны. В связи с этим возможно существование большого количества выравниваний, близких к “оптимальному” и характеризующихся достаточно высокой оценкой, которые в действительности могут оказаться более точным с точки зрения структуры. Аналогичным образом, алгоритмы выравнивания нуждаются в определенной параметризации вероятности вставок и делеций, а параметры не могут быть универсальными для всех белков. В связи с этим Ярошевский и его сотрудники (2002) провели систематическое исследование выравниваний, близких к “оптимальному”, варьируя параметры выравнивания и ослабляя наиболее выраженный ход процедуры выравнивания с помощью матрицы динамического программирования. При этом они установили, что в ходе ограниченного поиска “вблизи” оптимального выравнивания удается обнаружить выравнивания гораздо более точные, чем “оптимальное” с точки зрения значения оценочной функции. В результате остался открытым вопрос о том, как достоверно отобрать такие улучшения выравнивания из большого множества вариантов.
Чивиан и Бейкер (2006) попытались решить эту проблему путем создания моделей на основе выравниваний и оценки каждой модели с использованием сочетания кластеризации структур (например, методом 3D-Jury) и тонко настроенной энергетической функции пространственной структуры белка. Кроме того, Уолнер и Элофсон (2006) обучали нейронную сеть на окружениях остатков и оценках “профиль-профиль” набора белковых моделей для создания алгоритма предсказания качества моделей. Наконец, МакГаффин (McGuffin, 2008) использовал несколько программ для оценки качества моделей наряду с методами кластеризации структур, такими как 3D-Jury, в качестве входных данных для предиктора на основе нейронной сети.