Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014
Распознавание фолда
Точность выравнивания, качество моделей и статистическая значимость
Оценка статистической значимости
Для того чтобы методы, описанные в этой главе, имели практическое применение в широком биологическом сообществе, необходимы надежные способы оценки ошибок. Если молекулярный биолог сталкивается с предсказанием без указания вероятности точности прогноза, такой прогноз является практически бесполезным. При поиске последовательностей, поиске по библиотеке способов укладки или поиске по набору моделей, полученных на основе протягивания, результаты имеют общий вид - списка оценок. Известно, что при сравнении последовательности с библиотекой потенциальных моделей большинство из этих моделей оказываются неправильными. Таким образом, большинство оценок “последовательность-структура” можно рассматривать как фоновый шум. Затем можно использовать статистические показатели, чтобы рассчитать, превосходит ли данная ошибка фоновый шум и если да, то насколько.
В настоящее время не существует общего аналитического описания формы распределения оценок протягивания или распознавания укладки по различным моделям и последовательностям, хотя хорошо известно, что распределение оптимальных оценок не является нормальным. Для содержащего пропуски локального выравнивания двух последовательностей или последовательности относительно профиля распределение оптимальных оценок выравниваний может быть аппроксимировано распределением экстремального значения. Такие системы, как BLAST, PSI-BLAST, скрытые марковские модели и многие методы “последовательность-профиль” и “профиль-профиль”, подстраивают распределения оценок своих выходных данных под распределение экстремальных значений, из которого затем можно рассчитать вероятность ошибки первого рода и математическое ожидание.
В некоторых методах на основе профилей для приближения распределения оценок используется нормальное распределение и стандартизованные значения. Эти значения вычисляются с помощью среднего значения и стандартного отклонения оценки выравнивания рассматриваемой последовательности с библиотекой всех структурных моделей. Аналогичным образом, во многих методах протягивания оптимальная грубая оценка используется в качестве первичного показателя совместимости структуры и последовательности и определяется статистическая значимость оценки при учете предположения о нормальном распределении оценок последовательностей, протянутых через библиотеку доступных моделей. В методе протягивания с сэмплированием по Гиббсу (Bryant 1996) значимость оптимальной оценки определяется сравнением с распределением оценок, полученных протягиванием перемешанной рассматриваемой последовательности через ту же самую структурную модель. Распределение перемешанных оценок предполагается нормальным. В последнее время многие системы распознавания фолда отказываются от любых явных статистических расчетов и вместо этого полагаются на методы машинного обучения, такие как нейронные сети и методы опорных векторов, для прогнозирования оценки точности.
Однако зачастую наиболее передовые системы предсказания структуры, пытающиеся использовать крайне далекие гомологические отношения, являются высокоэмпирическими и в общем случае не имеют надежных статистических показателей вероятных ошибок. Читателю важно понимать, что предсказание структуры белков - это очень неточная наука, и поэтому нужно быть осторожным при толковании полученных результатов. Наиболее ценным инструментом при таком толковании является неизменно биологическое понимание изучаемого гена или системы.