Основы биоинформатики - Огурцов А.Н. 2013
Методы биоинформационного анализа
Филогенетический анализ
Филогения и фенетика
Обычно живые организмы классифицируют на группы по наблюдаемым подобиям и различиям. Если два организма очень близко связаны друг с другом, то, как правило, считают, что они имеют общего предка.
Филогения - это описание биологических отношений, обычно изображаемое в виде дерева. Отмеченные подобия и различия между организмами используют для восстановления филогении. Науку об эволюционных отношениях (связях) организмов называют филогенетикой.
Филогенетический анализ представляет собой не что иное, как способ оценки эволюционных отношений. Эволюционную историю, восстановленную в результате филогенетического анализа, обычно изображают в виде разветвлённых, древовидных диаграмм, которые представляют предполагаемую родословную наследственных отношений между молекулами, организмами или и тем, и другим.
Утверждение о филогении среди различных организмов предполагает их гомологию и зависит от классификации. Филогения устанавливает топологию отношений (схему родословной), выведенных либо на основании классификации по подобию одного или нескольких наборов признаков, либо на основании модели эволюционных процессов. Во многих случаях филогенетические отношения, основанные на различных признаках, вполне достоверны и даже подтверждают друг друга. На фоне традиционной таксономии в настоящее время наиболее достоверными являются молекулярные подходы к определению филогении.
По сравнению с традиционными деревьями, построенными по морфологическим признакам, молекyлярные филогении намного информативнее, потому что они шире в охвате (например, цветковые растения с млекопитающими можно сравнивать по последовательностям белка, но никак не по морфологическим признакам); кроме того, результаты анализа информации такого типа непротиворечивы и объективны.
Так, например, на основе анализа последовательностей 16S и 18S рибосомных РНК, Карл Вёзе (Carl Richard Woese) восстановил общую классификацию живых организмов (рисунок 20).
Рибосомная РНК (рРНК) является чрезвычайно консервативной и притом универсальной молекулой, которая присутствует в клетках всех живых организмов (животных, растений, грибов, бактерий, паразитов и т. д.). Она имеет низкую устойчивость к мутациям и эволюционирует очень медленно. Развитая вторичная структура рРНК гарантирует, что скорость эволюционного изменения будет медленна, поскольку двойные спиральные области требуют взаимно компенсирующих замен оснований (вероятность которых ничтожно мала). Представленное на рисунке 20 дерево совместимо с выравниванием и групповым анализом этих молекул, а сделанные из его оценки выводы не противоречат таковым, полученным по результатам других исследований макромолекул.
Целями филогенетических исследований является выявление взаимосвязей между видами, популяциями, индивидами или генами. Под взаимосвязями подразумевается родство или генеалогия, то есть схема (модель) распределения потомков от общего предка. Дерево, показывающее всех потомков от одного предка, называется укоренённым.
Филогенетический анализ семейства родственных последовательностей нуклеиновых кислот или белков заключается в установлении возможных путей развития семейства в ходе эволюции.
В настоящее время в филогенетическом анализе именно последовательности ДНК предоставляют наилучшую меру сходства между видами.
Используя либо третью ("wobble") позицию в кодоне (см. [7], п. 4.4), либо нетранслируемые участки (такие, как псевдогены), либо отношение синонимичных замен кодонов к несинонимичным, возможно даже отличить селективные генетические изменения от неселективных.
Для сопоставления необходимо найти гены, которые разошлись на подходящее расстояние.
Гены, которые остаются почти неизменными среди интересующих нас видов, не дают никакого различия в степени сходства. А гены, которые разошлись слишком сильно, не могут быть выровнены.
К счастью, гены сильно различаются по степени изменчивости. Митохондриальный геном млекопитающих (циклическая двухцепочечная молекула ДНК длиной примерно 16 000 bp) предоставляет набор быстро изменяющихся последовательностей, полезный для изучения эволюции близкородственных видов. Напротив, консервативные последовательности рибосомальных РНК были использованы Карлом Вёзе, чтобы идентифицировать три большие таксономические империи: Археобактерии, Бактерии и Эукариоты (рисунок 20).
Необходимо учитывать, что разные степени изменений у последовательностей разных генов могут привести к различным и даже противоречивым результатам в филогенетических исследованиях. Это особенно верно, если целью является не просто восстановить топологическую схему родства, а установить длину ветвей дерева.
Кроме того, горизонтальный перенос генов и конвергентная эволюция представляют собой конкурирующие явления, которые затрудняют вывод относительно филогенетических отношений.
При анализе последовательностей нуклеиновых кислот и белков, наиболее тесно связанные последовательности могут быть определены по их положению на соседних ветвях дерева. Если в организме или группе организмов удается обнаружить семейство генов, то филогенетические отношения среди генов такого семейства могут помочь предсказать, те из них, которые могли бы иметь эквивалентные функции.
Если последовательности молекул двух нуклеиновых кислот или белков, найденных в двух различных организмах, являются подобными, то это значит, что они, вероятно, произошли от общей предковой последовательности. Выравнивание последовательностей показывает, какие позиции в этих последовательностях сохранились неизменными, а какие отошли от общей последовательности-предка. При абсолютной уверенности в том, что эти две последовательности состоят в эволюционном родстве, их можно считать гомологичными.
Эволюционное дерево - это двумерный граф, отражающий эволюционные отношения как самих организмов, так и их генов. Отдельные последовательности рассматриваются как таксоны, то есть филогенетически обособленные единицы - ветви дерева. Важно осознать, что каждый узел дерева представляет разветвление эволюционного пути (гена) организма на два разных вида, которые изолированы друг от друга в плане воспроизводства. При построении дерева эволюционных отношений последовательности изображают в виде наружных ветвей. Тогда разветвленные связи в кроне дерева отражают силу отношений между различными последовательностями.
Цель филогенетического анализа состоит в том, чтобы обнаружить все ветвящиеся связи в дереве и определить длины его ветвей.
В филогенетических деревьях длины рёбер графа обозначают либо какую-то меру различия между двумя видами, либо длину времени, прошедшего с их разделения (см., например, рисунок 20). Предположение о том, что различия между живущими видами отражает время их дивергенции (расхождения), верно только в том случае, если степени дивергенции одинаковы для всех ветвей дерева.
Вообще, существуют два подхода к построению филогенетического дерева.
Первый подход, фенетический (групповой или кластерный), не имеет никакого отношения к исторической модели родства между видами. В этом случае начинают с измерения расстояний между видами и строят дерево с помощью процедуры иерархический кластеризации.
Кластеризацией называется сведение вместе сходных предметов (или признаков), различая классы объектов, более сходных с любыми другими, чем те объекты, которые не входят в эти классы.
Иерархическая кластеризация - это многоступенчатое группирование кластеров из кластеров.
Второй подход, кладистический (временной), состоит в рассмотрении возможных путей эволюции, в предположении о возможном предке каждой вершины и в выборе оптимального дерева в соответствии с какой- либо моделью эволюционных изменений.
Фенетика основана на фенотипическом сходстве, а кладистика основана на генеалогии.
Иерархическая кластеризация прекрасно справляется с построением дерева даже при отсутствии эволюционных связей.
Простая процедура кластеризации осуществляется следующим образом: дана выборка видов, где для каждой пары установлена мера сходства или различия. Она может зависеть от физических черт тела, таких как разница в среднем росте взрослого организма у представителей двух видов. Либо можно использовать число несходных оснований в выравниваниях митохондриальных ДНК. Для построения дерева из выборки различий сначала выбирают два наиболее близкородственных вида и добавляют вершину, изображающую их общего предка. Затем замещают два выбранных вида группой, содержащей обоих, и заменяют расстояние от этой пары до остальных на среднее от расстояния от двух выбранных видов до остальных. Теперь мы имеем набор парных различий не между самостоятельными видами, а между группами видов.
Каждый оставшийся самостоятельный вид воспринимается как набор, содержащий только один элемент.
Этот процесс построения дерева называется UPGMA (Unweighted Pair Group Method with Arithmetic mean - метод невзвешенной группировки с арифметическим средним). Модификация метода UPGMA, сделанная Naruya Siatou и Masatoshi Nei, называется методом ближайшего соседа (Neighbor Joining), который разработан для того, чтобы скорректировать неравномерность эволюции на разных ветвях дерева.