Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014
Распознавание фолда
Определение отдаленной гомологии без протягивания
Эвристические правила выравнивания
Подход с использованием протягивания первоначально был разработан для решения проблемы определения совместимости последовательности с известной структурой. Число способов белковой укладки в природе конечно. Это указывает на то, что при наличии соответствующих энергетической функции и алгоритма выравнивания использование методов на основе протягивания может оказаться успешным, тогда как методы на основе последовательностей не приносят желаемых результатов. Применение методов на основе последовательностей требует наличия некоторой ощутимой гомологии между исследуемой последовательностью и известной структурой; для использования методик на основе протягивания наличие определяемой гомологии не требуется.
В раннем периоде развития методов поиска потенциальных гомологий по базам данных последовательностей преобладали BLAST и другие подобные подходы. В их основе лежала идея использования общей оценочной функции, такой как матрицы BLOSUM или РАМ, которые показывали вероятность мутационного перехода одного типа аминокислоты в другой на основе ряда надежно выровненных блоков схожих белковых последовательностей. Это были простые справочные таблицы размером 20x20, в которых содержались оценки для соответствия между любыми парами аминокислот в выравнивании. Таким образом, выравнивание гидрофобного остатка относительно другого гидрофобного остатка (например, лейцина относительно валина) получало хорошую оценку, а выравнивание непохожих остатков (например, глутамата относительно триптофана) - плохую оценку. Сочетание такой оценочной функции с алгоритмом стандартного динамического программирования позволяло получить относительно невысокую производительность при определении гомологических связей. Если задаться целью поиска по базам данных последовательностей с известной структурой, а затем построить модель на основе полученного выравнивания, то можно получить одну из самых простых методик предсказания структуры белка (рис. 2.4а).
Очевидный недостаток этого подхода состоит в том, что с помощью простых оценочных функций размером 20x20 можно успешно определять лишь близкую гомологию (более 30% идентичности последовательностей). Известно, что в ниже этой границы идентичности последовательности могут существенно дивергировать, тогда как структуры обладают высокой степенью сходства. Таким образом, при использовании обсуждаемого подхода не учитывается множество гомологичных связей, определение которых позволит значительно улучшить качество предсказаний структуры белков.