Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014
Распознавание фолда
Определение отдаленной гомологии без протягивания
Классификация типов укладки и метод опорных векторов
Распознавание фолдов является проблемой классификации. Ее можно рассматривать как ряд вопросов о том, сворачивается ли рассматриваемая последовательность в тот или иной тип укладки из всего их многообразия. Найти решение в таком случае можно с помощью методов машинного обучения. Если известны свойства исследуемой последовательности, S, такие как ее аминокислотный состав, родственные последовательности, предсказанная вторичная структура и т.п., можно определить наиболее вероятный тип укладки, обладающий свойствами s, из некоторого набора типов укладки F. Такие классификаторы грубо можно разделить на генеративные и дискриминативные. Типичным генеративным классификатором является наивный байесовский классификатор. Суть в том, чтобы определить относительную важность каждого свойства (параметры модели) для предсказания типа укладки путем анализа частот, с которыми данные свойства встречаются у элементов данного класса в определенном обучающем наборе.
В качестве примера использования наивного байесовского классификатора приведем операцию определения наиболее вероятного значения Fnb при заданных значениях s1, s2, ... sn. В результате имеем:
В общем случае P(si\fj) можно оценить по формуле:
где:
n - количество обучающих примеров, для которых f = fj;
nс - количество примеров, для которых f = fjи s = sj;
р - априорная оценка для P(si/fj);
m - эквивалентный объем выборки (весовой терм для априорной оценки).
Существует выраженное сходство между этим подходом и методами, которые описаны выше и используются для задания энергетических функций.
В отличие от генеративных классификаторов, где вероятности определяются с использованием обучающих примеров, в случае дискриминативных классификаторов предпринимается попытка достичь максимальной предсказательной точности непосредственно на обучающем наборе. Нейронные сети и метод опорных векторов - это дискриминативные классификаторы, которые широко используются в вычислительной биологии (см., например, Busuttil et al. 2004; Garg et al. 2005; Nguyen and Rajapakse 2003; Bradford and Westhead 2005).
Использование метода опорных векторов (англ. support vector machines, SVM) позволяет определить границу решений, или гиперплоскость, которая разделяет входные данные на два класса (например, тип укладки А и тип укладки не-А) на основе значения вектора свойств s. В наиболее сложных случаях данные невозможно разделить, используя линейную функцию входных свойств. В методе опорных векторов проблема нелинейности решается с помощью кернфункции k(si, sj), которая оценивает степень подобия пар входных примеров si, sj. В процессе обучение осуществляется сравнение каждого из примеров, как положительного, так и отрицательного с другими примерами рассматриваемого ряда с помощью кернфункции, создающей матрицу значений подобия размера n x n, где n - количество обучающих примеров. Хитрость состоит в том, что с помощью кернфункции - как правило, простой и быстрой в вычислительном отношении - можно представить данные в пространстве свойств более высокой размерности, где затем их можно разделить линейно. Определенная таким образом граница решений включает обычно лишь небольшое количество обучающих примеров, которые располагаются на самой границе решений и известны опорные векторы из-за своей способности “поддерживать” границу, подобно тому, как распорки служат опорой строения.
Метод опорных векторов используется для определения отдаленной гомологии, в том числе в методах SVM-Fisher (Jaakkola et al. 2000), SVM-k-spectrum (Leslie et al. 2002), SVM-pairwise (Liao and Noble 2003), SVM I-sites (Hou et al. 2003) и SVM-mismatch (Leslie et al. 2004).
Все эти методики являются в каком-то смысле методиками “чистого” распознавания, поскольку при осуществлении моделирования не создается окончательное выравнивание. Вместо этого с некоторой вероятностью определяется принадлежность исследуемой последовательности к тому или иному классу. В некоторых случаях это может быть полезно, однако зачастую исследователь стремится получить пространственную модель исследуемой последовательности, и потому для выполнения (нетривиальной) стадии выравнивания необходима дополнительная система.