Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014
Предсказание структуры мембранных белков
Предсказание топологии трансмембранных белков
Альфа-спиральные белки
Как уже было отмечено ранее, ТМ белки крайне скудно представлены в структурных базах данных, что значительно осложняет их изучение. В то же время, ТМ белки имеют важное биологическое и фармакологическое значение, поэтому понимание их топологии - общего числа ТМ спиралей, их границ и ориентации относительно мембраны - одна из приоритетных задач теоретического предсказания. Существуют экспериментальные методы, такие как анализ гликозилирования, создание вставок, исследования с использованием антител и создание белков слияния, которые позволяют определить локализацию отдельных областей в топологии. Однако такие исследования требуют большого количества времени, их результаты часто противоречивы (Мао et al. 2003; Kyttala et al. 2004), и, кроме того, существует риск деформации природной топологии из-за изменения белковой последовательности.
В отсутствие данных о структуре современные стратегии биоинформатики сводятся к методам предсказания на основе анализа последовательностей. Задолго до появления первых кристаллографических структур стало возможным идентифицировать ТМ спирали как фрагменты последовательности, состоявшие из гидрофобных остатков и достаточно длинные, чтобы прошить мембрану насквозь. В основе ранних методов предсказания Kyte and Doolittle (1982) и Engelman et al. (1986), а позже и Wimley and White (1996) лежали экспериментально определенные индексы гидрофобности, которые использовались для создания графиков гидрофобности исследуемого белка. Процедура включала использование метода “скользящего среднего” с длиной окна 19-21 остаток и усреднение данных, которые образовывали пики на графике (области высокой гидрофобности) и соответствовали ТМ спиралям (рис. 4.3).
С увеличением числа проанализированных последовательностей обнаружилось, что ароматические остатки Тrр и Туr имеют тенденцию располагаться группами вблизи концов трансмембранных сегментов (Wallin et al. 1997). Возможно, такие группы действуют как физические буферы, которые стабилизируют ТМ спирали внутри липидного бислоя. В ходе более поздних исследований в составе трансмембранных спиралей были обнаружены специфические мотивы последовательностей, такие как мотив GxxxG (Senes et al. 2000), а также периодические элементы, которые участвуют в упаковке спиралей и формировании пространственной структуры белка (Samatey et al. 1995). Однако одним из наиболее важных открытий в этот период было обнаружение того факта, что положительно заряженные остатки имеют тенденцию располагаться в области цитоплазматичекой петли - закономерность, известная как правило “положительное внутри”, сформулированное фон Хейном (von Heijne 1992). Все эти сведения в сочетании с предсказаниями на основе данных о гидрофобности привели к появлению ранних методов предсказания топологии, таких как TopPred (Carlos and von Heijne 1994).
Рис. 4.3. График гидрофобности по Kyte-Doolittle. Белковая последовательность исследована с помощью метода “скользящего среднего” с длиной окна 19-21 остаток. В каждом положении рассчитывается средний индекс гидрофобности аминокислот внутри окна, затем полученное значение наносится на график как средняя точка окна. Приведенный график соответствует ТМ белку с 4 ТМ спиралями
4.6.1.1. Подходы, основанные на машинном обучении
Ранние методы, в основе которых лежали физико-химический принцип скользящего окна гидрофобности и правило “положительное внутри”, несмотря на свой первоначальный успех, позже были вытеснены методами, основанными на машинном обучении. Преимущество последних состояло в вероятностном представлении. Некоторые методы прогнозирования, в основе которых лежит машинное обучение, приведены в таблице 4.3.
Таблица 4.3. Методы предсказания топологии трансмембранных альфа-спиралей, основанные на машинном обучении
Метод |
URL |
Алгоритм |
Особенности |
MEMSAT3 |
http://bioinf.cs.ucl.ac.uk/psipred/ |
Нейронные сети |
Сигнальные пептиды, МВП*, ПАГ** |
MINNOU |
http://minnou.cchmc.org/ |
Нейронные сети |
МВП |
PHDhtm |
http://www.predictprotein.org/ |
Нейронные сети |
Сигнальные пептиды, МВП, ограниченный |
Phobius |
http://phobius.sbc.su.se/ |
Скрытые марковские модели |
ПАГ |
ТМНММ |
http://www.cbs.dtu.dk/services/ТМНММ/ |
Скрытые марковские модели |
Повторно входящие области, ПАГ |
PRODIV-ТМНММ |
http://www.pdc.kth.se/~hakanv/prodiv-tmhmm/ |
Скрытые марковские модели |
Ограниченный |
НММТОР |
http://www.enzim.hu/hmmtop/ |
Скрытые марковские модели |
МВП |
ENSEMBLE |
http://pongo.biocomp.unibo.it/pongo/ |
Нейронные сети и скрытые марковские модели |
Мембранные петли |
OCTOPUS |
http://octopus.cbr.su.se/ |
Нейронные сети и скрытые марковские модели |
Консенсусный |
SVMtop |
http://biocluster.iis.sinica.edu.tw/-bioapp/SVMtop/ |
Метод опорных веторов |
Консенсусный |
PONGO |
http://pongo.biocomp.unibo.it/pongo/ |
Множественный |
|
BPROMPT |
http://www.jenner.ac.uk/bprompt/ |
Множественный |
* - прогнозирование топологии осуществляется с использованием множественных выравниваний последовательностей (МВП).
** - метод пригоден для полного анализа генома (ПАГ)
Первыми попытками применения скрытых марковских моделей (СММ) (hidden Markov models, или HMMs) к предсказанию трансмембранных топологий стали методы ТМНММ (Krogh et al. 2001) и НММТОР (Tusnady and Simon 1998), которые, как выяснилось впоследствии, оказались весьма успешными. В ТМНММ используются циклическая модель и семь состояний трансмембранной спирали, тогда как в НММТОР скрытые марковские модели используются для распознавания одного из пяти структурных состояний (ядро спирали, внутренняя петля, наружная петля, концы спирали (С и N) и глобулярные домены). Эти состояния связаны друг с другом через значения вероятностей перехода. С помощью динамического программирования осуществляется поиск модели, которая имеет наиболее вероятную для данной последовательности топологию. В НММТОР также существует возможность зафиксировать специфические остатки в определенных областях топологии, основываясь на данных экспериментов, и получить ограниченный прогноз топологии.
Искусственные нейронные сети (ИНС, neural networks, или NNs) применяются в таких методах, как PHDhtm (Rost et al. 1996) и MEMSTAT3 (Jones 2007). В PHDhtm для согласованного предсказания топологии ТМ спиралей выполняются множественные выравнивания последовательностей с использованием комбинации двух ИНС. Первой создается сеть “последовательность-структура”, которая отражает структурную предрасположенность центрального остатка в окне считывания. Затем вторая сеть, “структура-структура”, сглаживает эти предрасположенности, после чего к полученному результату применяется правило “положительное внутри”, и формируется общая топология ТМ спиралей. Метод MEMSTAT3, использующий нейронную сеть и динамическое программирование, позволяет не только предсказывать топологию ТМ спиралей, но также оценивать качество полученной топологии и определять возможные сигнальные пептиды. Дополнительная эволюционная информация, получаемая из множественного выравнивания, позволила увеличить точность предсказания до 80% при использовании одного набора данных (Jones 2007).
В последнее время для предсказания топологии ТМ белков применяется метод опорных векторов (support vector machines, или SVMs) (Yuan et al. 2004; Lo et al. 2008). В отличие от нейронных сетей и скрытых марковских моделей, где в качестве результата исследования можно получить множественные наборы данных, метод опорных векторов является бинарным классификатором. Для классификации многочисленных предпочтений остатков метод необходимо применять многократно, после чего полученные данные можно скомбинировать в вероятностную рамку. Хотя метод допускает реализацию и многоклассового ранжирования, она считается ненадежным, поскольку во многих случаях не существует единой математической функции, с помощью которой можно было бы разделить данные на классы. Тем не менее, метод опорных векторов дает возможность обучить машину сложным взаимосвязям между аминокислотами внутри исследуемого окна, на примере которого идет обучение, в особенности, при использовании информации об эволюции белка. Метод также является более гибким по сравнению с другими методами машинного обучения в случае проблемы переобучения, хотя наличие множества настраиваемых параметров может привести к тому, что процедура оптимизации будет занимать очень большое количество времени.
Рис. 4.4. Использование нескольких методов для согласованного предсказания топологии
4.6.1.2. Согласованные подходы
Некоторые современные методы сочетают в себе различные подходы, основанные на машинном обучении. В методе ENSEMBLE (Martelli et al. 2003) используются одна нейронная сеть и две скрытые марковские модели, в методе OCTOPUS (Viklund and Elofsson 2008) применяются два ряда из четырех нейронных сетей и одной скрытой марковской модели. Оба метода отличаются более высокой точностью прогнозов по сравнению с методами, в основе которых лежит одиночный алгоритм классификации. В методе BPROMPT (Taylor et al. 2003), где также используется согласованный подход, для получения окончательной топологии выходные данные пяти различных методов прогнозирования обрабатываются с помощью Байесовской сети доверия. Нильссон и соавторы (Nilsson et al. 2002) также использовали пять методов предсказания, но для выбора окончательной топологии применялось правило большинства. Результатом работы сервера PONGO (Amico et al. 2006) являются выходные данные пяти методов оценки топологии, представленные в графическом формате для прямого сравнения. В большинстве случаев необходимо принимать к рассмотрению несколько теоретических моделей, полученных разными методами прогнозирования (рис. 4.4). Это в особенности касается белковых молекул, отличающихся сложной топологией.
4.6.1.3. Сигнальные пептиды и мебранные спирали
Одной из задач, стоящих перед современными методами предсказания топологии, является умение отличать ТМ спирали от других элементов структуры, содержащих большое количество гидрофобных остатков. К таким элементам относятся мотивы-мишени: сигнальные пептиды и сигнальные якоря, амфифильные спирали и мембранные спирали - спирали, проникающие в мембрану, но входящие и выходящие из нее на одной и той же стороне. Последние характерны для многих семейств ионных каналов (рис. 4.5).
Рис. 4.5. (Цветную версию рисунка см. на вклейке.) Субъединица калиевого канала из Streptomyces lividans, имеющая в своем составе мембраную спираль (в центре, сверху). PDB ID 1r3j
Профили гидрофобности таких белковых структур и ТМ спиралей характеризуются высокой степенью сходства, что часто ведет к перекрыванию между предсказаниями различных типов. Если трактовать вышеперечисленные элементы как ТМ спирали, то последующее предсказание топологии, вероятнее всего, будет весьма отрывочным. Некоторые методы предсказания, такие как SignalP (Berendsen et al. 2004) и TargetP (Emanuelsson et al. 2007), эффективны при определении сигнальных пептидов. Их можно использовать в качестве предварительного фильтра, предшествующего анализу с использованием методов предсказания ТМ топологий. В методе Phobius (Kall et al. 2004) для решения проблемы сигнальных пептидов в предсказании топологии ТМ белков используется скрытая марковская модель. В PolyPhobius (Kall et al. 2005) точность предсказания увеличивается за счет включения информации о гомологии. В других методах, таких как TOP-MOD (Viklund et al. 2006) и OCTOPUS, были предприняты попытки включить в процесс предсказания ТМ топологии определение мембранных областей, однако этот подход нуждается в усовершенствовании. Основной проблемой, в особенности касающейся мембранных спиралей, является отсутствие надежных данных, которые можно использовать для машинного обучения.