Основы биоинформатики - Огурцов А.Н. 2013
Методы биоинформационного анализа
Матрицы замен
Матрицы BLOSUM
Другое семейство матриц замен аминокислот - матрицы BLOSUM - разработали в 1992 году супруги Стивен и Джорджа Хеникофф (Steven Henikoff, Jorja G. Henikoff) на основе базы данных BLOCKS выровненных последовательностей белков, отсюда и название матриц BLOSUM (BLOcks SUbstitution Matrix).
Понятие "блок" (block) является производным от понятия "мотив» (motif) - консервативный отрезок аминокислотной последовательности, который придаёт белку определённую структуру или функции (см. [6], п. 6.1). Если мотивы белков из некоторого семейства выровнены без введения пропусков в последовательности, то такой "мотив мотивов" называют блоком.
Рассматривая непрерывные комбинации аминокислот, которые были обнаружены в каждом семействе родственных белков, выравниваемых без пропусков, супруги Хеникофф рассчитали в каждой позиции последовательности отношение числа обнаруженных пар замен аминокислотных остатков к числу замен, ожидаемых для всех рассмотренных родственных блоков.
Чтобы уменьшить преобладающий вклад тех замен аминокислот, которые происходят в наиболее подобных (родственных) последовательностях, такие последовательности были предварительно отобраны и числа замен в них были усреднены, и именно такие средневзвешенные значения и использовались для представления всей группы родственных белков.
Затем блоки были сгруппированы по идентичности и в пределах каждой группы была рассчитана матрица замен: для блоков идентичных на 45% - матрица BLOSUM45; для подобных на 62% - матрица BLOSUM62; для подобных на 80% - матрица BLOSUM80 и так далее.
Программа ClustalW при выравнивании аминокислотных последовательностей с использованием матрицы BLOSUM предлагает использовать штрафы d = 10 за введение делеции (gap open) и е = 0,1 за продолжение делеции (gap extension).
Матрицы BLOSUM, подобно матрицам РАМ, тоже основаны на концепции частот мутаций. Но при получении матриц BLOSUM частоты мутаций определяют с помощью поиска в базе данных BLOCKS, а числа, присвоенные матрицам BLOSUM, не имеют той же самой интерпретации, как в случае матриц РАМ. При этом любая погрешность, потенциально вносимая при подсчёте многократного вклада от идентичных пар остатков, устраняется путём группировки сегментов последовательностей на основе их минимального тождества, выраженного в процентах.
При построении матриц BLOSUM группы подобных последовательностей фактически рассматриваются как отдельные (средневзвешенные) последовательности. Белковые блоки содержат локальные множественные выравнивания отдалённо связанных последовательностей (в отличие от тесно связанных последовательностей, используемых в РАМ).
Как и в матрицах РАМ, в матрицах BLOSUM результат представлен в виде логарифмов частот замен. Во избежание дробных чисел все значения в матрицах также умножены на 10 и округлены.
В таблицах 12-15 представлены матрицы аминокислотных замещений BLOSUM45, BLOSUM50, BLOSUM62 и BLOSUM80, которые наиболее часто используются при расчёте выравниваний.
В большинстве из программ выравнивания матрица BLOSUM62 используется по умолчанию.
Таблица 12 - Матрица замен аминокислот BLOSUM45
Таблица 13 - Матрица замен аминокислот BLOSUM50
Таблица 14 - Матрица замен аминокислот BLOSUM62
Таблица 15 - Матрица замен аминокислот BLOSUM80
Вообще говоря, матрица BLOSUM представляет собой эволюционную модель в матричной форме, так как её получают из прямых данных, а не из экстраполированных значений, как в случае матриц РАМ.