Основы биоинформатики - Огурцов А.Н. 2013
Методы биоинформационного анализа
Матрицы замен
Вес операций редактирования
Не все замены элементов биологических последовательностей равноценны. Так, например, консервативные замены аминокислот сохраняют функциональность белка, а радикальные могут привести к потере функции. Кроме того, высокая помехоустойчивость генетического кода приводит к тому, что консервативные мутации происходят с большей вероятностью, чем радикальные (см. [7], п. 4.2.1). Другой пример, делеция расположенных рядом нуклеиновых оснований в молекулах нуклеиновых кислот или расположенных рядом аминокислот в белках - это событие более вероятное, чем делеция такого же количества позиций, независимо расположенных в биологической последовательности. Поэтому при расчёте расстояния между последовательностями каждому виду редактирования назначается различный "вес" (weight) или "цена" ("счёт") (score).
Следует помнить терминологическую особенность такого рода оценок. В биологии принято назначать вес (score) выравниванию последовательностей исходя из степени их сходства, то есть подобные последовательности дают высокие счёта, а различные последовательности - низкие.
Определение же расстояния (по Хеммингу или по Левенштайну) выявляет меру несходства двух последовательностей - схожие последовательности дают малые значения расстояния, а несхожие - большие.
Алгоритм построения оптимального выравнивания должен либо минимизировать расстояние, либо максимизировать вес выравнивания.
Чтобы получить оптимальный вес необходимо добавлять баллы за каждую пару совпадающих знаков в выравнивании (диагональные переходы на рисунке 18) и вычитать баллы (штрафовать) за вставки и удаления или делеции (вертикальные и горизонтальные переходы на рисунке 18).
Поскольку при сравнении двух последовательностей нельзя отличить вставку от делеции, то в англоязычной литературе часто используют "комбинированный" термин ins del (от "insertion" + "deletion"). В русскоязычной литературе также иногда используют термин "инсдел" (или даже "всуд" (от "вставка" + "удаление")), но мы в таких случаях будем использовать термин "делеция", чтобы не усложнять текст.
В различных задачах применяют три вида штрафов за делеции:
1) фиксированный штраф: у = -d;
2) линейный штраф, при котором цена удаления g остатков определяется линейной функцией: y(g) = -gd ;
3) аффинный штраф: y(g) = -d - (g-1)е, складывающийся из штрафа -d за введение делеции (gap-open) и штрафа -е за продолжение делеции (gap-extension).
Нуклеиновые кислоты. Для подсчёта замен в нуклеиновых кислотах в простейшем случае добавляют (+1) балл за совпадение и штрафуют на (-1) балл за несовпадение. В более сложных схемах оценки учитывают, например, тот факт, что транзиции (transition mutation) — замены пурин↔пурин и пиримидин↔пиримидин (а↔g и t↔c), происходят значительно чаще, чем трансверсии (transversion mutation) - замены пуринс↔пиримидин (a, g)↔(t, с).
В качестве примера в таблице 7 приведена одна из возможных матриц замен нуклеотидов.
Таблица 7 - Матрица замен нуклеотидов
Программа ClustalW при выравнивании последовательностей ДНК рекомендует использовать значения "+1" для совпадения, "О" для несовпадения и штрафы d = 10 за введение делеции и е = 0,1 за продолжение делеции.
Аминокислотные последовательности. Для аминокислотных последовательностей было предложено несколько схем замен аминокислот.
Известно, что некоторые виды замен аминокислот обычно наблюдаются в родственных белках у организмов разных видов. Поскольку белок с этими заменами остается функционально активным, то, очевидно, что замещающие аминокислоты совместимы с его структурой и функцией. Часто такие замены происходят между химически подобными аминокислотами, однако появляются также изменения другого вида, хотя относительно редко.
Знание частот появления замещений всех типов, происходящих в различных белках (из большой выборки) может помочь в предсказании выравниваний любого набора белковых последовательностей.
Если последовательности родственных белков вполне подобны, то их легко выровнять и можно без труда отследить все замены аминокислот, наступившие на последней стадии эволюции. Если наследственные отношения среди группы белков предварительно установлены, то могут быть предсказаны наиболее вероятные замены аминокислот, произошедшие в ходе эволюции.
Данный метод анализа был предложен и внедрен в научную практику Маргарет Дейхофф (Margaret Belle (Oakley) Dayhoff (1925- 1983)). Она собирала статистику по частотам аминокислотных замен в известных белках, и результаты её работ использовались для подсчёта весов выравниваний в течении многих лет. Позднее они были заменены новыми матрицами, полученными в результате обработки расшифрованных последовательностей.