Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014
Распознавание фолда
Определение отдаленной гомологии без протягивания
Согласованные подходы
В последних экспериментах CASP было показано, что консенсусные методы, в которых данные нескольких серверов для распознавания фолдов объединяются в общее предсказание, обладают значительным преимуществом. Эти “метасерверы” заметно превосходят многие индивидуальные методы, на основе которых они разработаны. К числу таких индивидуальных методов принадлежат выравнивание последовательности относительно профиля, скрытые марковские модели, выравнивание профиля относительно профиля и протягивание.
К числу наиболее популярных методик, в которых сочетание предсказаний объединяется в метасерверах, принадлежат Peons (Wallner and Elofsson 2005), 3D-Shotgun (Fischer 2003) и 3D-Jury (Ginalski et al. 2003). Самым простым, но от этого не менее производительным является метод 3D-Jury. В методе осуществляется сравнение пространственных моделей, созданных с помощью различных серверов, путем выравнивания их структур. Затем проводится переоценка моделей на основе их структурного сходства с остальными моделями группы. Таким образом, если в нескольких относительно независимых системах предсказания типов укладки были выбраны близкие шаблоны, а затем созданы близкие выравнивания, такие модели впоследствии получат более высокую оценку по сравнению с остальными, менее типичными моделями. В методе Peons этот подход 3D-Jury сочетается с использованием нейронной сети, которая обучена отличать модели, обладающие свойствами, общими для всех белковых структур, от моделей, у которых такие свойства отсутствуют (подобно тому, как это реализовано в эмпирической функции энергии в методе протягивания). Наконец, в методе 3D-Shotgun для каждого остатка каждой модели рассчитывается оценка по методу 3D-Jury, после чего из наиболее общих, или “популярных”, частей создается новая модель. Это может привести к сильной фрагментации модели, и, несмотря на то, что на устранение этого недостатка был нацелен целый ряд экспериментов, проблема по-прежнему не решена.
Обширное исследование причин высокой производительности метасерверов было проведено в работе (Bennett-Lovsey et al. 2008). Авторы пришли к выводу, что улучшения по большей части заключаются не в исключении отдаленных гомологов per se, а в повышении точности, т.е., исключении ложноположительных результатов. Это явление связано с тем, что при сочетании множества различных систем предсказания структуры вероятность того, что все они совершают одну и ту же ошибку, значительно меньше вероятности согласованного результата. Любая особенность последовательности, которая может вызвать отказ в работе одного или двух методов предсказания, вряд ли будет иметь такое же влияние на большинство методов. Объединение классификаторов и алгоритмов предсказания в ансамбли с целью повышения производительности - устоявшаяся область исследований, которая занимает свое место между статистическим распознаванием образов и машинным обучением (Jain et al. 2000; Kuncheva and Whitaker 2003). К сожалению, даже спустя несколько десятилетий исследований мы не научились, используя основы теории, создавать оптимальные ансамбли. В результате основным принципом работы метасерверов, как правило, является метод проб и ошибок.