Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014
Методы биоинформатики для изучения структуры и функций неупорядоченных белков
Предсказание неупорядоченности
Алгоритмы машинного обучения
Вероятно, наиболее прогрессивными методами прогнозирования неупорядоченности структуры являются алгоритмы машинного обучения (МО) (ML, от “machine learning”), т.е., методы предсказания, “обученные” на определенных последовательностях, которые кодируют упорядоченные или неупорядоченные структуры. В отличие от более простых ранних методов, алгоритмы машинного обучения объединяют в себе учет нетривиальных свойств аминокислот и скрытых свойств последовательностей, чем, вероятно, объясняется их более высокая производительность. В то же время, в основе корректных прогнозов часто лежат принципы, неизвестные исследователям, т.е., методы машинного обучения не способствуют более глубокому пониманию процессов, лежащих в основе неупорядоченности структуры.
Классическим алгоритмом МО является PONDR (метод предсказания природных неупорядоченных областей, от “predictor of natural disordered regions”), который основан на анализе локального аминокислотного состава, гибкости и других свойств последовательностей (Romero et al. 1998). Он был разработан в нескольких вариантах и позволяет прогнозировать неупорядоченность в концевых областях белков (Li et al. 1999), области, которые с высокой вероятностью являются характеристическими мотивами, (VL-XT (Iakoucheva et al. 2002)), а также сочетания коротких и протяженных областей с неупорядоченностью (VSL2 (Peng et al. 2006)). Поскольку короткие неупорядоченные области являются контекстными (т.е., отсутствие у них выраженной структуры определяется структурным окружением), а неупорядоченность протяженных областей - независимой, этот комбинированный подход составляет основу одного из наиболее производительных алгоритмов предсказания неупорядоченности структуры.
Другой подход, отличающийся по характеру вычислительной составляющей, заключается в применении метода опорных векторов (SVMs, от “support vector machines”) и представлен алгоритмом DISOPRED2 (Ward et al. 2004). Этот алгоритм осуществляет в пространстве свойств поиск гиперплоскости, которая отделяет упорядоченные белки от неупорядоченных. Гиперплоскость может быть как линейной, так и нелинейной. Учитываются несбалансированные классовые частоты данных как упорядоченных (например, белки в PDB), так и неупорядоченных (например, как белки в DisProt (Sickmeier et al. 2007)) белков. В качестве входных данных также используются профили последовательностей, созданные с помощью PSI-BLAST.