Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014
Предсказание структуры мембранных белков
Базы данных
На сегодняшний день существует довольно большое количество баз данных, в которых содержатся последовательности и структуры ТМ белков. ОРМ (Lomize et al. 2006b), PDBTM (Tusnady et al. 2005b), CGDB (Sansom et al. 2008), MPDB (Raman et al. 2006) и база данных Стивена Уайта (Stephen White’s database, http://blanco.biomol.uci.edu/) содержат TM белки, структуры которых были определены методами рентгеноструктурного анализа и электронной дифракции, ядерного магнитного резонанса и криоэлектронной микроскопии. ОРМ, PDBTM и CGDB также содержат информацию о предположительной ориентации белков относительно мембраны. Предположение делается на основе анализа данных об энергиях переноса из воды в липидный бислой (Lomize et al. 2006а), сведений о гидрофобности и структурных особенностях белков (Tusnady et al. 2005а), а также на основе результатов молекулярнодинамических исследований с использованием крупнозернистых моделей (Sansom et al. 2008). В ОРМ содержится информация о локализации N-концов белков. TOPDB (Tusnady et al. 2008) и Mptopo (Jayasinghe et al. 2001) содержат сведения о ТМ белках неизвестной пространственной структуры, топологии которых были подтверждены экспериментально с использованием методов низкого разрешения, таких как слияние генов, исследования с использованием антител и мутагенез. Некоторые базы данных ТМ белков содержат информацию о специфических семействах, в том числе, о калиевых ионных каналах (Li and Gallin 2004) и рецепторах, сопряженных с G-белками (Нот et al. 2003). В других базах данных, таких как LGICdb (Donizelli et al. 2006) и TCDB (Saier et al. 2006), представлены определенные структурные или функциональных классы белков.
Набор данных Мюллера (Molier et al. 2003) требует модификации с учетом последних аннотаций из SWISS-PROT (Boeckmann et al. 2003), однако представляет особый интерес. В нем содержатся разнообразные обучающие массивы и массивы для проверки достоверности результатов исследований. Поскольку имеющиеся на сегодня базы данных пространственных структур содержат информацию преимущественно о прокариотических белках, полученные с их использованием массивы данных для обучения и проверки достоверности результатов обладают определенной специфичностью. Массивы Мюллера лишены этого недостатка. При работе с базами данных по биоинформатике следует обращать особое внимание на частоту обновления информации. Так, интенсивность появления новых последовательностей и структур в базах данных Genbank и PDB (а также случаи их исчезновения - см., например, Pomillos et al. 2005) требуют от администраторов своевременной подготовки аннотаций новых последовательностей и структур, что не всегда выполнимо в силу больших объемов.