Основы биоинформатики - Огурцов А.Н. 2013
Методы биоинформационного анализа
Матрицы замен
Матрицы РАМ
Матрица РАМ (Рercent Accepted Mutation) отражает вероятность замен аминокислот в ходе эволюционного изменения аминокислотных последовательностей в белковых цепях. Матрицы РАМ (таблицы 8-11) показывают изменения, ожидаемые в течение определённого периода эволюционного времени и сопровождаемые убывающим подобием последовательностей, по мере того как гены, кодирующие один и тот же белок, расходятся при увеличении времени эволюции.
Мера расхождения последовательностей оценивается в единицах РАМ - процент принятых (или зафиксированных) мутаций. Таким образом, две последовательности имеют расстояние 1 РАМ, если они совпадают на 99% (другими словами, зафиксирована одна точечная мутация на 100 аминокислотных остатков).
Для получения матриц РАМ Маргарет Дейхофф оценивала замены аминокислот в группе эволюционирующих белков; при этом были отмечены 1572 замены в 71 группе последовательностей белков, которые были подобны по крайней мере на 85%. Поскольку такого рода замены аминокислот наблюдаются в близкородственных белках, они представляют собой мутации, которые не приводят к значительным изменениям функции белка. Поэтому их и называют "принятыми" (или "зафиксированными") мутациями, поскольку эти замены аминокислот были "приняты" естественным отбором и "зафиксированы" в популяции.
Таблица 8 - Матрица замен аминокислот РАМ30
Таблица 9 - Матрица замен аминокислот РАМ70
Таблица 10 - Матрица замен аминокислот РАМ120
Таблица 11 - Матрица замен аминокислот РАМ250
Вначале подобные последовательности белков были организованы в филогенетическое дерево. Затем было подсчитано число замен каждой аминокислоты на каждую другую аминокислоту. Чтобы сделать эти числа пригодными для анализа последовательностей, была необходима информация об относительной изменчивости (мутабильности, подверженности заменам) каждой аминокислоты.
Относительные мутабильности были оценены путём подсчёта в каждой группе связанных последовательностей числа замен каждой аминокислоты и деления этого числа на величину, названную мутационной экспозицией аминокислоты. Этот фактор равен произведению частот всех замен, произошедших в 100 случайных позициях последовательностей из этой группы. Этот фактор нормализует данные для различных составов аминокислот, частот мутации и длин последовательностей. Затем нормализованные частоты были просуммированы для всех групп последовательностей. Согласно этим подсчётам, аминокислоты аспарагин, серин, аспарагиновая и глутаминовая кислоты были наиболее мутабильными, а цистеин и триптофан - наименее изменчивыми.
На основании полученных таким методом частот замен аминокислот и значений их мутабильности была получена вероятностная матрица мутаций размером 20x20, отражающая все возможные замены аминокислот. Поскольку замена каждой аминокислоты была смоделирована на марковской модели (см. п. 9.3), где мутация в каждом участке независима от предыдущих мутаций, то изменения, предсказанные для более отдалённо связанных белков, которые подверглись многим (N) мутациям, также могли быть рассчитаны.
Согласно этой модели матрицу 1 РАМ можно умножить саму на себя N раз и получить матрицы переходов для сравнения последовательностей со всё более и более низкими уровнями подобия ввиду расхождения в течение более длительных периодов эволюционной истории (по мере возрастания N).
В таблицах 8-11 показаны матрицы, РАМ30, РАМ70, РАМ120 и РАМ250. Во избежание дробных чисел все значения в матрицах умножены на 10 и округлены.
Уровень в 250 РАМ, соответствующий примерно 20% идентичности последовательностей, считается минимальным уровнем сходства, для которого можно надеяться получить правильное выравнивание, основываясь на анализе самих последовательностей без привлечения дополнительной информации, например, пространственной организации белковой глобулы. Расстояние 250 РАМ означает, что при эволюции последовательности длиной 100 аминокислотных остатков произошло 250 мутаций в случайных позициях. Поэтому в некоторых позициях мутаций вообще не было, а в некоторых позициях произошло 3 и более мутационных изменения.
Если бы в природе не происходил естественный отбор, то частоты всех возможных замен аминокислот главным образом зависели бы от частот появления этих аминокислот в последовательности (фоновые частоты). Однако наблюдаемые в родственных белках частоты замен (целевые частоты) обусловлены заменами, которые не вызывают серьёзных нарушений функции белка.
Матрицы РАМ обычно преобразуют в логарифмические матрицы шансов.
Счёт шансов (цена мутации) представляет собой отношение шансов на замену аминокислоты в соответствии с двумя различными гипотезами:
1) наблюдаемая скорость мутаций отражает истинное эволюционное изменение в данном участке (числитель);
2) замена произошла из-за случайной мутации, которая определяется только частотами встречаемости аминокислот и не имеет никакого биологического значения (знаменатель).
Отношения шансов преобразуют к логарифмам, чтобы получить логарифмические счета шансов. В результате этого умножение счетов шансов двух аминокислот в выравнивании удобно заменяется сложением их логарифмов
Величины в ячейках матриц РАМ отражают вероятность мутации. Так, например, в матрице РАМ250 для замены V↔M цена мутации равна +2. Это означает, что в сравниваемых эволюционно родственных последовательностях данная мутация происходит с вероятностью в 1,6 раз выше, чем при случайной мутации. Значение +2 было получено после умножения на 10, поэтому вероятность мутации равна 100,2 =1,6.
В матрицах замен аминокислот считается, что вероятность замены аминокислоты А на аминокислоту В всегда равна обратной вероятности замены В на А, поскольку невозможно определить разницу между этими двумя событиями.