Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014
Примеры: предсказание функции структур, полученных в проектах по структурной геномике
Введение
Джеймс Д. Уотсон, Джанет М. Торнтон
Развитие технологий высокопроизводительного определения структур белков в различных проектах по структурной геномике по всему миру привело к появлению в базе данных PDB нескольких тысяч таких структур. Однако из-за природы отбора объекта для кристаллизации и необходимости быстрого опубликования получаемых данных значительная доля этих структур почти или совсем не имеет информации о функции. Чтобы решить эту проблему было разработано огромное множество вычислительных методов, выполняющих предсказание функции белка исходя из его пространственной структуры. Диапазон этих методов простирается от масштабных сравнений укладок белков до высокоспецифичного моделирования отдельных остатков, а сами методы имеют свои преимущества и недостатки. Здесь мы рассматриваем применение этих методов в структурной геномике и делаем обзор попыток определить, насколько успешным оказалось предсказание функции белка исходя из его структуры, иллюстрируя успешные случаи конкретными примерами.
James D. Watson and Janet M. Thornton
European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton,
Cambridgeshire, CB10 ISD, UK
* e-mail:[email protected]
Проекты по секвенированию генома, реализуемые по всему миру, уже дали огромное количество информации о генах, существенных для ряда организмов, и количество этой информации быстро растет благодаря масштабным проектам по метагеномике, реализуемым в настоящее время (Yooseph et al. 2007). По сравнению с таким бурным ростом число имеющихся белковых структур остается далеко позади. Целью структурной геномики является устранение этого отставания путем высокопроизводительного получения большого числа новых структур, которые можно использовать для сравнительного моделирования еще большего числа белков (Fox et al. 2008; Service 2005). Следствием такого подхода стало получение большого числа структур, содержащих мало информации об их функции или вовсе её не содержащих. Это находится в прямом противоречии с традиционной структурной биологией, где функция белка зачастую заранее известна, а расшифровку структуры проводят для определения биохимических механизмов функционирования белка и их возможных нюансов. Экспериментальное определение функции - это очень ресурсоемкий процесс, поэтому, столкнувшись с большим числом структур с неизвестной функцией, современная биоинформатика поставила себе целью точное и автоматическое предсказание функции белков. В настоящее время существует множество вычислительных методов, направленных на предсказание функции, многие из которых подробно обсуждались в предыдущих главах, но все их в действительности можно раделить на две большие категории: методы, основанные, главным образом, на структуре изучаемого белка и методы, основанные на его последовательности.
Анализ последовательности обычно является первым шагом на пути предсказания функции белка, поскольку высокое сходство последовательностей по-прежнему является наиболее надежной основой для такого предсказания. В ряде работ было показано, что гомологичные белки, имеющие последовательности, идентичные на 40% и больше, скорее всего имеют и одинаковую функцию (Todd et al. 2001). Однако при предсказании функции следует быть осторожным, поскольку есть ряд исключений из этого правила, когда почти идентичные белки имеют разные функции или, напротив, одинаковой функцией обладают белки без явного сходства последовательностей (Whisstock and Lesk 2003). Развитие мощных и чувствительных методов, использующих профили и мотивы, расширило наши возможности по распознаванию схожих функций у все более далеких последовательностей. Среди других методов, призванных помочь нам в определении функции, можно назвать учет консервативности остатков, филогенетические профили, расположение генов и масштабная организация генома. Когда сама последовательность недостаточно четко указывает на возможную функцию или базы данных не содержат гомологов, на помощь приходит структура белка. Поскольку элементы структуры часто консервативны из-за консервативности его функции, то методы, использующие структурные данные, могут распознать более удаленное родство, чем методы, использующие только данные о последовательности. Диапазон этих методов простирается от масштабных сравнений укладки белков (Krissinel and Henrick 2004; Holm and Sander 1995) или их биологически активных комплексов (Krissinel and Henrick 2007) (см. тж. Главу 6), через сравнение рельефа поверхности белков (Laskowski 1995; Glaser et al. 2006; Binkowski et al. 2004) (см. тж. Главу 7) к сравнению высокоспецифичных пространственных групп функциональных остатков (Laskowski et al. 2005а; Stark and Russell 2003; Kristensen et al. 2008) (см. тж. Главу 8).
Ни один из методов не гарантирует 100% успеха, поэтому нужно поступать более осторожно и использовать максимально возможное число методов для предсказания функции: чем более независимые методы сойдутся в своих предсказаниях, тем более надежным будет результат. Как следствие, появился ряд серверов, реализующих различные методы предсказания функции. Некоторые из них, такие как сервер ProKnow (Pal and Eisenberg 2005), пытаются сделать консенсусное предсказание, в то время как другие, например, сервер ProFunc (Laskowski et al. 2005b) предоставляют пользователю возможность самому интерпретировать результаты различных методов (см. Главу 10). Однако возникает вопрос, насколько успешными попытки предсказания функции белков на основе их структуры были на самом деле? В этой главе на примере проектов по структурной геномике мы рассмотрим различные попытки ответить на этот вопрос и встретившиеся при этом трудности.