Основы биоинформатики - Огурцов А.Н. 2013
Основания биоинформатики
Геномы и протеомы
Геномика
Достижения в области биологии и химии позволили значительно повысить скорость информационной расшифровки последовательностей генов и белков. С появлением технологии рекомбинантных ДНК появилась возможность относительно просто встраивать последовательности чужеродной ДНК во многие биологические системы. Кроме того, благодаря этой технологии было освоено быстрое массовое производство специфичных последовательностей ДНК - необходимых компонентов лабораторного анализа биологических последовательностей.
Технология синтеза олигонуклеотидов дала возможность исследователям конструировать необходимые короткие фрагменты ДНК из последовательностей нуклеотидов.
Во-первых, эти олигонуклеотиды могут быть использованы для зондирования обширных библиотек кДНК с целью извлечения генов, содержащих эту последовательность.
Во-вторых, эти фрагменты ДНК могут быть использованы в качестве праймеров в полимеразных цепных реакциях (ПЦР) для амплификации или модификации известных последовательностей ДНК.
Анализ биологических последовательностей проводится в случаях, когда необходимо:
а) распознать последовательности, которые кодируют белки, определяющие весь клеточный метаболизм (структурные гены);
б) обнаружить последовательности, которые регулируют экспрессию генов или иные клеточные процессы.
Предметом геномики является развитие и применение методов молекулярной картографии и секвенирования, а также методов описания, расшифровки и анализа целых геномов организмов и полных наборов генных продуктов.
Под геномом организма понимают суммарную ДНК гаплоидного набора хромосом и каждого из внехромосомных генетических элементов, содержащуюся в отдельной клетке зародышевой линии многоклеточного организма. Анализ полных геномов даёт информацию о глобальной организации, экспрессии, регулировании и эволюции наследственных материалов (рисунок 39).
Рисунок 39 - Анализ генома: иерархическое представление
Разделяют структурную, функциональную и сравнительную геномику.
Структурная геномика занимается составлением генетических и физических карт, а также расшифровкой полных геномов.
Генетические карты служат исходным материалом для построения физических карт и карт последовательностей с более высоким разрешением и, кроме того, указывают молекулярные точки входа при клонировании генов.
Физические карты дают представление о том, как именно клоны из библиотек геномных клонов распределены в целом геноме. Они обеспечивают информацию для позиционного клонирования. Последовательности ДНК генома необходимы при описании функций всех генов, включая экспрессию и регуляцию генов.
Функциональная геномика занимается общим изучением структуры, картин экспрессии, взаимодействий и регуляции молекул РНК и белков, кодируемых геномом. Это всесторонний функциональный анализ генов и не содержащих гены последовательностей, проводимый на уровне целых геномов.
Сравнительная геномика рассматривает методы сравнения полных геномов различных биологических видов с целью определения функций каждого гена, а также эволюционных связей организмов-носителей этих геномов.
Расшифровка полной геномной последовательности ДНК какого-либо организма даёт возможность распознать все гены этого организма и таким образом определить его генотип. Для выполнения обработки, анализа и описания огромного числа генов и больших количеств ДНК были изобретены специальные экспериментальные методы.
Поскольку обычные методы секвенирования могут быть применимы только к коротким отрезкам ДНК (100-1000 пар оснований), более длинные последовательности можно разделить на фрагменты, а затем собрать заново, чтобы получить полный сиквенс большого отрезка ДНК.
Сиквенс (от англ. sequence — последовательность) - это последовательность нуклеотидов в фрагменте ДНК. Для получения полного сиквенса используются два основных метода:
1) метод прогулки по хромосоме (chromosome walking) или праймер-опосредованная прогулка, который даёт шаг за шагом сиквенс большого отрезка ДНК;
2) метод дробовика (shotgun sequencing), который намного быстрее, но и сложнее, так как используются случайные фрагменты ДНК, которые затем необходимо собрать вместе (с помощью специальных компьютерных программ).
Метод дробовика (Shotgun sequencing или шотган-секвенирование-клонирование) - метод, используемый для секвенирования длинных цепей ДНК (см. также п. 11.2).
Суть метода состоит в получении случайной массированной выборки клонированных фрагментов ДНК - контигов (сontig, от англ. contiguous - смежный, прилегающий) - данного организма (то есть "дробление" генома). Затем эти контиги секвенируют обычными методами, использующими обрыв цепи (см. ниже п. 6.3). Полученные перекрывающиеся случайные фрагменты ДНК затем собирают с помощью специальных программ в одну целую большую последовательность. Однако некоторую трудность при сборке могут представлять ДНК-повторы.
Анализ геномных последовательностей показывает, что каждый организм располагает как определённым набором "операционных" генов (housekeeping genes, гены "домашнего хозяйства"), необходимых для протекания основных метаболических процессов (таких как размножение, гликолиз, синтез АТФ, обслуживание генетических механизмов, анаболизм и катаболизм), так и набором "информационных" генов, продукты которых определяют специфику данного организма.
Расшифровка полного генома даёт те базовые знания, на основании которых можно анализировать экспрессию генов и синтез белков, но сама по себе такая расшифровка недостаточна для определения полного набора белков организма.
Размер генома, то есть количество генетической информации на клетку, и последовательность нуклеотидов в ДНК - практически всегда постоянны для всех особей одного вида, но сильно различаются у разных видов.
В таблице 5 представлены размеры геномов некоторых организмов. Не вся ДНК кодирует белки. Кроме того, некоторые гены представлены многочисленными копиями. Поэтому число генов в геноме не может быть оценено только из размера генома.
Таблица 5 - Размер геномов
Организм |
Число nap оснований |
Число генов |
Комментарий |
Вирус фХ-174 |
5386 |
10 |
вирус, инфицирующий Е. coli |
Человеческая митохондрия |
16569 |
37 |
субклеточная органелла |
Вирус Эпштейна-Барра (EBV) |
172282 |
80 |
вызывает мононуклеоз |
Mycoplasma pneumoniae |
816394 |
680 |
возбудитель эпидемии циклической пневмонии |
Rickettsia prowazekii |
1 111 523 |
878 |
бактерия, возбудитель эпидемического тифа |
Treponema pallidum |
1 138 011 |
1039 |
бактерия, вызывает сифилис |
Borrelia burgdorferi |
1 471 725 |
1738 |
бактерия, вызывает болезнь Лайма |
Aquifex aeolicus |
1 551 335 |
1749 |
бактерия из горячих источников |
Thermoplasma acidophilum |
1 564 905 |
1509 |
архея, не имеет клеточной стенки |
Campylobacter jejuni |
1 641 481 |
1708 |
частая причина пищевых отравлений |
Helicobacter pylori |
1667 867 |
1589 |
основная причина язвы желудка |
Methanococcus jannaschii |
1 664 970 |
1783 |
архея, термофил |
Hemophilus influenzae |
1 830 138 |
1738 |
бактерия, причина инфекций среднего уха |
Thermotoga maritima |
1 860 725 |
1879 |
морская бактерия |
Archaeoglobus fulgidus |
2 178 400 |
2437 |
архея |
Deinococcus radiodurans |
3 284 156 |
3187 |
радиационно-устойчивая бактерия |
Synechocystis |
3 573 470 |
4003 |
цианобактерия, сине-зеленая водоросль |
Vibrio cholerae |
4 033 460 |
3890 |
возбудитель холеры |
Mycobacteri um tuberculosis |
4 411 529 |
4275 |
возбудитель туберкулеза |
Bacillus subtilis |
4214814 |
4779 |
грамположительная почвенная бактерия |
Escherichia coli |
4 639 221 |
4406 |
кишечная палочка |
Pseudomonas aeruginosa |
6 264 403 |
5570 |
прокариот |
Saccharomyces cerevisiae |
12,1∙106 |
5885 |
дрожжи |
Caenorhabditis elegans |
95,5∙106 |
19099 |
Червь |
Arabidopsis thaliana |
1,17∙108 |
25498 |
цветковое растение (покрытосемянное) |
Drosophila melanogaster |
1,8∙108 |
13601 |
плодовая мушка |
Fugu rubripes |
3,9∙108 |
30000 |
рыба-собака (Fugu fish) |
Человек |
3,2∙109 |
34000 |