Основы биоинформатики - Огурцов А.Н. 2013
Основания биоинформатики
Примеры сравнения данных
Поиск схожих последовательностей в базах данных
Прежде чем проводить анализ биологических последовательностей, необходимо эти последовательности отыскать в базах данных. Например, если вы определили последовательность нового гена или нашли в геноме человека ген, ответственный за какое-то заболевание, то вы, возможно, захотите узнать, нет ли таких генов у других видов. Идеальный метод — тот, который с одной стороны чувствителен (который определяет даже дальнее родство), а, с другой стороны, селективен (благодаря которому все полученные родственные связи — истинные).
Методы поиска в базах данных подразумевают компромисс между чувствительностью и селективностью. Находит ли метод все или большинство из последовательностей, которые на самом деле существуют, или же он упускает большую их часть? А также, сколько из выданных этим методом результатов являются неправильными?
Предположим, база данных содержит 1000 последовательностей глобина. Предположим, поиск в этой базе данных по глобинам выдал 900 находок, 700 из них действительно последовательности глобина, а 200 таковыми не являются. Про такой поиск можно сказать, что у него 300 ложных отрицательных (false negatives) результатов (упущенных, не обнаруженных последовательностей) и 200 ложных положительных (false positives) результатов (обнаруженные последовательности в действительности не являются искомыми). Уменьшая порог допустимости, мы получим меньше ложных отрицательных результатов, но больше ложных положительных результатов.
Часто лучше работать с низкими порогами, чтобы быть уверенным, что ничего из того, что могло бы быть важным, не утеряно; но тогда потребуется детальная проверка результатов, для того чтобы устранить ложные находки.
Мощным инструментом для поиска последовательностей в базах данных, по имеющейся у нас последовательности, является программа BLAST (Basic Linear Alignment Sequence Tool), которую можно использовать с сайта NCBI http://www.ncbi.nlm.nih.gov/ (рисунок 30).
Рисунок 30 - Веб-страница NCBI; ссылка на программу BLAST показана в нижнем правом углу рисунка
Переход по ссылке "BLAST" http://blast.ncbi.nlm.nih.gov/Blast.cgi показан на рисунке 31. На рисунке отображена та часть страницы, которая относится только к основным (Basic) подпрограммам. Она включает:
✵ nucleotide blast - поиск данной последовательности нуклеотидов в базах данных нуклеиновых кислот используя алгоритмы blastn, megablast, dmegablast (discontiguous megablast);
✵ protein blast - поиск данной аминокислотной последовательности в базах данных белков используя алгоритмы blastp, psi-blast, phi-blast;
✵ blastx - переводит изучаемую нуклеотидную последовательность в кодируемые аминокислоты, а затем сравнивает её с имеющейся базой данных аминокислотных последовательностей белков;
✵ tblastn - изучаемая аминокислотная последовательность сравнивается с транслированными последовательностями базы данных секвенированных нуклеиновых кислот;
✵ tblastx - переводит изучаемую нуклеотидную последовательность в аминокислотную, а затем сравнивает её с транслированными последовательностями базы данных секвенированных нуклеиновых кислот.
Рисунок 31 - Веб-страница программы BLAST
Здесь:
megablast - быстрое сравнение с целью поиска высоко сходных последовательностей;
dmegablast - быстрое сравнение с целью поиска дивергировавших последовательностей, обладающих незначительным сходством;
blastn - медленное сравнение с целью поиска всех сходных нуклеотидных последовательностей;
blastp - медленное сравнение с целью поиска всех сходных белковых (protein) последовательностей;
psi-blast - Position-Specific Iterated BLAST - сравнение с целью поиска последовательностей, обладающих незначительным сходством;
phi-blast - Pattern Нit Initiated BLAST - поиск белков, содержащих определённый пользователем паттерн.
Паттерн - (от англ. pattern - образец, шаблон, модель) - это либо фрагмент последовательности, либо (реже) некий стандартный набор процедур, применяемый к разным объектам.
Пример 4. Г омологи РАХ-6 гена человека.
Гены РАХ-6 контролируют развитие глаза в широком наборе видов.
Глаза человека, мухи и осьминога сильно различаются по строению. Ранее, принимая во внимание то конкурентное преимущество, которое даёт зрение, считалось, что глаза возникли независимо в каждой эволюционной ветви. Поэтому большим сюрпризом стал тот факт, что ген, контролирующий развитие человеческого глаза, имеет гомолога, управляющего развитием глаза дрозофилы.
Ген РАХ-6 был клонирован вначале у мыши и человека. Он является главным регуляторным геном, контролирующим сложный каскад событий в развитии глаза.
Мутации в гене человека вызывают клиническое состояние - аниридию - дефект в развитии глаза, при котором радужная оболочка отсутствует или деформирована.
Гомолог гена РАХ-6 в дрозофиле называется - eyeless-ген (имеет сходную функцию контроля развития глаза). Мухи, мутантные по этому гену, развиваются без глаз; и обратно, экспрессия этого гена на лапке мухи или на антенне мухи - вызывает появление эктопических (то есть находящихся не на месте) глаз. Дрозофила, мутантная по гену eyeless, была впервые описана в 1915 г. Никто и не подозревал о его родстве с геном млекопитающих. Гены насекомого и млекопитающего схожи не только по последовательности, они так близкородственны, что их активность выходит за рамки видов. Экспрессия мышиного РАХ-6 в мухе вызывает эктопическое развитие глаза, также как и собственный eyeless ген мухи.
Гомологи РАХ-6 представлены и в других классах, включая плоских червей, асцидий, морских ежей и нематод. Наблюдение, что родопсины (семейство белков, содержащих ретин в качестве хромофора) функционируют, как светочувствительные пигменты в различных классах организмов, является дополнительным доказательством общего происхождения различных систем фоторецепторов.
Настоящие структурные различия в макроскопическом строении различных глаз отражают дивергенцию и независимость развития высокоорганизованных структур.
Ген РАХ-6 человека кодирует белок, имеющий Swiss-Prot-идентификатор - Р26367. Значение этого идентификатора можно получить, если в окно поиска программы UniProt (рисунок 23) ввести "РАХ-6" и нажать "Search".
Из окна программы "BLAST" http://blast.ncbi.nlm.nih.gov/Blast.cgi (рисунок 31) запускаем "protein blast" и вводим идентификатор sp|P26367 в окно "Enter Query Sequence" (рисунок 32).
Выбираем алгоритм "PSI-BLAST" в окне "Program Selection" и запускаем поиск, нажав кнопку "BLAST" в нижнем левом углу окна (рисунок 32).
Результат поиска представляет собой огромное (в длину) окно, большую часть которого занимает список записей схожих с последовательностью, заданной для поиска, сортированный в порядке убывания статистической значимости.
Начало этого списка показано на рисунке 33.
Рисунок 32 - Окно ввода программы BLAST
Рисунок 33 - Окно вывода программы BLAST
Каждая строка содержит одно совпадение с каким-либо геном. Рассмотрим, например, третью от начала строку, в которой приведены результаты для:
В первом столбце "Accession" располагается идентификатор гена (NP_001035735.1). Это гомолог Paired box protein Pax-6 [Bos taurus]. Базы данных обозначены в последнем столбце, в данном случае это базы данных UniGene, Gene Structure и Map Viewer.
Число 868 - это количество очков, присвоенное обнаруженному совпадению.
Значимость данного совпадения (E-value) измерена как Е = 0.0.
E-value (expectation value) определяется вероятностью того, что данная степень сходства может быть случайной.
E-value — это ожидаемое количество последовательностей, которые совпадут также или лучше чем данная, если поиск будет производиться базе данных такого же размера, но со случайными последовательностями.
Е = 0.0 означает полное соответствие.
Подробнее параметры выравнивания будут рассмотрены в п. 8.5.
Результат попарного выравнивания генов РАХ-6 человека и РАХ-6 буйвола (который находится в этом же окне внизу после списка совпадений) демонстрирует их абсолютное подобие (рисунок 34).
Рисунок 34 - Парное выравнивание генов РАХ-6 человека и буйвола в окне вывода программы BLAST
Чем больше значение Е, тем больше отклонений при сравнении последовательностей. Так, например, для гомолога twin eyeless Drosophila (NP_524638.3) значение E = 7∙10-145 (рисунок 35(a)).
Рисунок 35 - Схожие гены РАХ-6 человека и twin eyeless дрозофилы: а - результат поиска; б - парное выравнивание в окне вывода программы BLAST
Парное выравнивание генов РАХ-6 человека и twin eyeless дрозофилы показывает уже значительные различия в последовательностях (рисунок 35(6)).
Контрольные вопросы и задания
1. Перечислите уровни иерархии биологической номенклатуры на примере человека и плодовой мушки.
2. Какие органы называются гомологичными?
3. Чем отличается дивергентная и конвергентная эволюции?
4. На какие три империи разделил все организмы Карл Вёзе, основываясь на анализе рибосомных РНК?
5. Какими символами в окне результатов программы ClustalW2 обозначаются: одинаковая аминокислота; сходные аминокислоты; вставки; отсутствие сходства в последовательностях?
6. Чем различаются подобие и гомология последовательностей?
7. Что такое ложные отрицательные и ложные положительные результаты поиска?
8. Для чего предназначена программа BLAST?
9. Что такое nucleotide blast?
10. Перечислите алгоритмы, которые используются в nucleotide blast.
11. Что такое protein blast?
12. Перечислите алгоритмы, которые используются в protein blast.
13. Что такое blastx?
14. Что такое tblastnl
15. Что такое tblastx?
16. Что такое megablast?
17. Что такое psi-blast!
18. Что такое паттерн?
19. Что такое E-value Е-значение) последовательностей?