Основы биоинформатики - Огурцов А.Н. 2013

Методы биоинформационного анализа
Множественное выравнивание последовательностей
Методы множественного выравнивания

К настоящему времени были разработаны разнообразные методы, с помощью которых множественное выравнивание последовательностей известных белков можно применять для идентификации родственных последовательностей при поиске в базах данных. Эти методы реализованы в виде программ, наиболее важными из которых являются программы "Профили" (Profiles), "ПСИ-БЛАСТ" (PSI-BLAST) и "Скрытые марковские модели" (Hidden Markov Models, НММ).

Профили. Как правило, белки с подобной функцией имеют в своей структуре общий идентичный мотив. Поэтому предсказание мотивов намного полезнее, чем поиск глобального подобия первичных последовательностей белков. Белки, обладающие подобными или сравнимыми функциями, весьма вероятно, являются производными формами общего белка-предка. Очень часто их последовательности (особенно мотивы) показывают значительное подобие. Множественное выравнивание последовательностей обычно позволяет обнаружить семейства родственных белков. Такой вид множественного выравнивания называют профилем.

Профиль (или весовая матрица) — это позиционная таблица счетов, в которую сведена информация о полном выравнивании последовательностей. Профили показывают, какие остатки могут находиться в данных позициях; какие позиции консервативны, а какие вырождены; которые позиции, или области, допускают вставки. В дополнение к данным, полученным из выравнивания, система счетов может включать в себя эволюционные веса и результаты анализа структур.

В литературе практически равновероятно используются термины профиль, паттерн, Position Weight Matrix (PWM, позиционная матрица счетов) и Position-Specific Weight Matrix (PSWM, позиционно-специфическая матрица замен, или Position-Specific Scoring Matrix, PSSM).

Профиль выявляет регулярные комбинации, присутствующие во множественном выравнивании гомологичных последовательностей. Эти комбинации имеют большое значение.

✵ Они позволяют более аккуратно строить выравнивания дальнеродственных последовательностей.

✵ Наборы остатков высокой степени консервативности позволяют предположить их принадлежность к активному сайту и определять функцию белка.

✵ Консервативные паттерны облегчают идентификацию других похожих последовательностей.

✵ Консервативные паттерны могут использоваться для классификации подсемейств в множестве гомологов.

✵ Наборы остатков, в которых консервативность проявлена в низкой степени и в которых встречаются вставки и делеции, с высокой долей вероятности проявляются в петлях на поверхности белков. Эта информация применялась при разработке вакцин, поскольку указанные области с высокой долей вероятности стимулируют образование антител, которые будут хорошо взаимодействовать с нативными структурами.

✵ Методы предсказания структуры, основанные на множественном выравнивании последовательностей, являются более надёжными, чем методы, построенные на анализе единственной последовательности. Например, моделирование гомологии кардинально зависит от построения правильного выравнивания последовательностей.

Для использования профилей в процессе идентификации гомологов, необходимо сопоставлять данную последовательность с последовательностями из базы данных, приведенными в таблице выравниваний, придавая консервативным позициям больший вес по сравнению с вариабельными позициями.

Если известно, что какой-либо участок белковой цепи абсолютно консервативен, то процедура должна требовать обязательного наличия такого мотива.

В то же время слишком высокая степень жёсткости данной операции может повлечь за собой пропуск интересных дальних родственников, поэтому должны быть разрешены некоторые отклонения.

В качестве количественной меры консервативности каждой позиции в таблице выровненных последовательностей сопоставляется вероятностное распределение аминокислот.

Например, для выравнивания

можно составить весовую матрицу

элементы которой показывают вес данной аминокислоты для каждого столбца данного выравнивания.

При построении такой матрицы используется несколько методов. Во-первых, репрезентативность профиля возрастает с увеличением числа последовательностей, по которым производится выравнивание.

Во-вторых, учитывают вес замены данной аминокислоты і любой другой из наблюдаемых аминокислот, используя матрицы замен аминокислот, например, РАМ250 или BLOSUM62. В таком случае аминокислота і может получить значение

Фактически вектор значений для аминокислот является произведением матрицы замен и вектора частот встречаемости остатков.

Эта схема распределяет значения среди наблюдаемых аминокислот, взвешенных согласно вероятностям замен. Аминокислота в последовательности запроса получает большее значение, либо если она часто появляется в запросе в данной позиции, либо если для неё существует высокая вероятность появления с помощью мутации из остатков тех типов, которые обычны для данной позиции. То есть используется комбинация наблюдаемой выборки и частот встречаемости аминокислот в качестве распределения аминокислот.

Данный подход более эффективен для распознавания отдалённых родственников при использовании ограниченного набора известных последовательностей.

Алгоритм, который реализует поиск оптимального выравнивания запрошенной последовательности и профиля среди всех возможных выравниваний является обобщением метода динамического программирования выравнивания двух последовательностей.

Недостаток простого профиля заключается в том, что множественное выравнивание последовательностей должно быть произведено заранее и учитывается в фиксированном виде.

Альтернативой является использование программы PSI-BLAST и скрытых марковских моделей (НММ), вычислительная (и прогностическая) мощность которых увеличивается с ростом объёма баз данных.

PSI-BLAST. PSI-BLAST - это программа, которая подбирает данные для последовательностей, аналогичных запрошенной. Она является обобщённой версией программы BLAST.

Программа BLAST (и её варианты) независимо сравнивает каждую запись в базе данных с запрошенной последовательностью.

Первый шаг программы BLAST - это поиск слов-кортежей некоторой установленной длины W со счётом выше некоторого порога Т. Величина W обычно равна 3 для последовательностей белка и 11 для последовательностей нуклеиновых кислот. Вначале BLAST (подобно алгоритму FASTA (см. п. 8.4)) выбирает слово-кортеж из последовательности запроса и продолжает удлинять его в обоих направлениях, сопоставляя с целевой последовательностью и одновременно подсчитывая счета совпадений и несовпадений, а также штрафы за введение и продолжение пропусков. Продолжение слова производится до тех пор, пока не будет достигнут некоторый предел S. BLAST продолжает отдельные пары совпадающих слов до тех пор, пока полный счёт выравнивания не снижается от максимальной величины до некоторого порога; в качестве результата программа выдаёт пары сегментов с высоким счётом.

BLAST - это эвристический алгоритм поиска, реализованный в различных программах пакета (см. п. 4.3).

BLASTP сравнивает аминокислотную последовательность запроса с предметными последовательностями из базы данных белка.

BLASTN сравнивает запрашиваемую нуклеотидную последовательность с предметными последовательностями из базы данных нуклеотидных последовательностей.

BLASTX сравнивает результаты компьютерной смысловой трансляции с шестью рамками считывания обеих нитей ДНК (Six-Frame Translation или 6-Frame Translation) последовательности запроса нуклеотидов с содержимым базы данных белковых последовательностей.

TBLASTN сравнивает белковую последовательность запроса с последовательностями из базы данных нуклеотидных последовательностей, динамически транслируемых с шестью рамками считывания (обе нити).

TBLASTX сравнивает продукты трансляции с шестью рамками считывания нуклеотидной последовательности запроса с продуктами трансляции с шестью рамками считывания последовательностей из базы данных последовательностей нуклеотидов.

PSI-BLAST сравнивает аминокислотную последовательность запроса с предметными последовательностями из белковых баз данных.

Программа PSI-BLAST начинает работу с поэлементного сравнения каждой записи в базе данных с запрошенной последовательностью запроса. Затем она строит локальное множественное выравнивание последовательностей, полученных при первичном запросе, и затем обращается к базе данных, используя уже это множественное выравнивание.

Затем процесс повторяется (по полученному набору кандидатов снова строится множественное выравнивание), и результат уточняется в ходе нескольких итераций, пока не исчерпается заданное количество циклов или пока процедура не сойдётся, то есть пока результаты двух последовательных запросов не совпадут.

Причиной, по которой потребовалось создание программы BLAST, являлось то, что полномасштабные методы динамического программирования недостаточно быстры для задачи полного поиска в большой базе данных. Часто база данных содержит последовательности, очень похожие на запрошенную последовательность. Менее точные, но более быстрые программы вполне способны идентифицировать близкие совпадения, что в большинстве случаев и требуется.

Например, если существует необходимость найти гомологи мышиного белка в геноме человека, то степень сходства скорее всего будет высокой, и более быстрые методы подойдут для решения этой задачи.

Но в случае необходимости нахождения гомологов человеческого белка в С. elegans или дрожжах, различия будут более тонкими, и, следовательно, требуется программа с более высокой степенью точности.

Метод, на котором основана программа BLAST, вообще говоря, подобен анализу точечных матриц совпадений, которые выявляют хорошо совпадающие локальные участки. Для каждой записи в базе данных проверяются короткие сопредельные участки, совпадающие с короткими сопредельными участками запрошенной последовательности (для чего используется матрица аминокислотных замен), но без пропусков. Участки фиксированной длины быстро определяются при использовании таблиц поиска (хеш-таблиц).

Таблицей поиска (Lookup table) называют структуру данных (обычно массив или ассоциативный массив) используемую с целью заменить вычисления на операцию простого поиска. Увеличение скорости может достигается за счёт того, что провести простой поиск в памяти компьютера требует гораздо меньше машинного времени, чем выполнить громоздкие вычисления. Примеры таблиц поиска - это таблицы тригонометрических функций или таблицы логарифмов (например, таблицы Брадиса), которые были широко распространены до начала массового производства инженерных калькуляторов.

Как только программа BLAST определяет подходящий участок, она пытается его расширить. В некоторых версиях программы допускается наличие пропусков. На выходе программа предлагает набор локальных сегментных совпадений.

Программа PSI-BLAST, которая использует итерационный поиск последовательности, гораздо эффективнее BLAST при изучении менее близкородственных связей. PSI-BLAST точно определяет в три раза больше гомологов, чем BLAST, в фрагментах, в которых совпадения составляют меньше 30%. Следовательно, этот метод весьма хорошо применим в случае анализа целых геномов. PSI-BLAST способна идентифицировать белковые домены известной структуры для 39% генов М. genitaliurn, 24% генов дрожжей и 21% генов С. elegans.

Единственным более эффективным методом, основанным на анализе последовательностей, является метод скрытых марковских моделей.





Для любых предложений по сайту: [email protected]