Основы биоинформатики - Огурцов А.Н. 2013
Основания биоинформатики
Биологические последовательности
Выравнивание биологических последовательностей
Выравниванием (alignment) последовательностей азотистых оснований в нуклеиновых кислотах или аминокислот в полипептидных цепях белков называют определение взаимного соответствия остатков (нуклеиновых оснований или аминокислотных остатков, соответственно) в этих двух или нескольких последовательностях, при котором сохраняется исходный порядок остатков в последовательностях.
Выравнивание последовательностей - это основной инструмент биоинформатики, его проводят с целью установления структурных, функциональных и эволюционных отношений между последовательностями.
Биологические макромолекулы являются результатом молекулярной эволюции. Поэтому если две такие биомакромолекулы имеют некоторого общего предка, а значит и последовательности мономеров в таких макромолекулах общую предковую последовательность, то они, как правило, обнаруживают подобие в сочетаниях мономеров, в структурах и в биологических функциях.
Например, если открыта новая последовательность с неизвестной функцией, но при этом в базах данных могут быть найдены подобные ей последовательности с ранее установленными структурами и функциями, то результаты выравнивания (сравнения) этой новой последовательности с уже исследованными последовательностями могут стать основанием для предсказания функции или структуры этой новой последовательности.
Одна из целей выравнивания последовательностей состоит в том, чтобы определить степень подобия двух последовательностей и, если она достаточно высока, сделать правдоподобное заключение об их гомологичности.
При передаче генетической информации от предыдущего поколения следующему она несколько изменяется во время процесса копирования. Изменения, которые происходят в процессе расхождения от общего предка, могут быть трёх типов: замены, вставки и удаления (выпадения).
Эти изменения могут накапливаться от поколения к поколению. Через несколько тысяч поколений в последовательностях может наблюдаться значительное число расхождений. Сравнение двух предположительно гомологичных последовательностей показывает степень их расхождения, то есть силу эволюционных изменений.
Выравнивание последовательностей — это процедура сравнения двух (попарное выравнивание) или нескольких (множественное выравнивание) последовательностей путём поиска рядов отдельных элементов или характерных комбинаций элементов последовательностей, которые расположены в выравниваемых последовательностях в одинаковом порядке.
При выравнивании двух последовательностей их помещают в две строки друг над другом, записывая их с помощью букв алфавита.
Идентичные или подобные "буквы" (элементы) этих строк (последовательностей) сдвигают в пределах строки (не меняя исходного порядка следования "знаков") таким образом, чтобы они выстраивались друг под другом в соответствующих столбцах.
Неидентичные, или различные знаки либо помещают в одни и те же столбцы как несовпадения, либо вставляют напротив них во второй последовательности пропуски.
Рассмотрим для примера две строки:
1) abcde 2) acdef
Разумное выравнивание выглядит так:
Для того чтобы найти оптимальное (или наилучшее) выравнивание необходимо определить критерий качества выравнивания. Так, для последовательностей нуклеотидов gctgaacg и ctataatc возможны следующие выравнивания:
1. Неинформативное выравнивание
2. Выравнивание без пропусков
3. Выравнивание с пропусками
4. Ещё одно выравнивание
Интуитивно кажется, что последнее выравнивание является лучшим, поскольку в нём получено максимальное число совпадений для нуклеотидов в двух последовательностях и использовано минимальное число вставок.
Чтобы решить, является ли оно лучшим из всех возможных, необходимо иметь способ систематической проверки всех возможных выравниваний, иметь количественный критерий ("вес" ("weight") или счёт ("score")), по которому возможно сравнивать качество различных выравниваний и определить выравнивание с оптимальным весом (счётом).
При этом от того, какая именно система оценки выбрана для такого сравнения, может зависеть результат сравнения, и даже незначительные изменения в схеме оценки могут изменить рейтинг выравниваний, из-за чего лучшим станет другое выравнивание.
Разделяют несколько типов выравнивания.
✵ Глобальное выравнивание - это выравнивание всей последовательности относительно другой последовательности.
Здесь символом " | " обозначены соответствия, "пробелы" обозначают несоответствия, " - " обозначает те вставки (инсерции, от англ. insertion) и удаления (делеции, от англ. deletion), которые необходимо сделать в обеих последовательностях, чтобы достичь максимального количества соответствий.
✵ Локальное выравнивание - это поиск части последовательности, которая совпадает с частью другой последовательности.
Для локального совпадения выступающие концы не рассматриваются как пропуски (делеции). В дополнение к несовпадениям, возможны также вставки и удаления внутри совпадающей части.
✵ Поиск мотивов совпадения - это поиск совпадения короткой последовательности в одном или более отрезках длинной последовательности. В этом случае допускается несовпадение одного символа. Можно также потребовать полного совпадения, либо допустить большее число несовпадений или даже пропусков.
Для примера, найдём мотивы «Я люблю» совпадения для строк
✵ Множественное выравнивание - это взаимное выравнивание многих последовательностей. Например, выровняем четыре строки:
Последняя, пятая строка, показывающая символы, сохраненные во всех последовательностях выравнивания, называется консенсусом.