Основы биоинформатики - Огурцов А.Н. 2013

Основания биоинформатики
Предмет биоинформатики
Особенность биоинформационных данных

Биологию традиционно считают описательной, а не аналитической наукой. Несмотря на то, что последние успехи науки не изменили это основное направление, радикально изменилась сущность биологических данных.

До последнего времени все биологические наблюдения носили в основном случайный характер, правда, с различным уровнем точности и некоторые были проведены действительно с очень хорошим качеством.

Первая особенность биологических данных последнего поколения исследований состоит в том, что данные стали не только количественными и более точными, но, как в случае нуклеотидных и аминокислотных последовательностей, они стали дискретными.

Расшифровать геномную последовательность индивидуального организма или клона стало возможным не только полностью, но и, что принципиально, точно. Ошибки эксперимента никогда не могут быть полностью исключены, но для современного секвенирования генома они чрезвычайно низки.

Это не означает, что биология стала аналитической наукой. Жизнь действительно подчиняется законам физики и химии, но она слишком сложна и зависима от цепи исторических случайностей, чтобы сегодня можно было бы детально объяснить её свойства, исходя из фундаментальных принципов. А достигнутая точность фиксации геномов не является достаточным условием для объяснения явления жизни.

Вторая очевидная особенность биоинформационных данных — это их огромное количество. Сейчас банки данных нуклеотидных последовательностей содержат около 20 млрд, нуклеиновых пар оснований. Если мы возьмем в качестве единицы измерения размер генома человека (НUmаn Genome Equivalent, HUGE), то этот объём информации эквивалентен 7 HUGE. База данных только белковых структур содержит более 86 000 записей, каждая из которых является полным описанием координат ~400 аминокислотных остатков данного белка в трёхмерном пространстве (рисунок 1) - http://www.pdb.org/.

Рисунок 1 - Веб-страница Банка белковых данных PDB

Огромны не только размеры отдельных банков данных, но и экспоненциальные темпы их увеличения. Так, например, в таблице 1 представлена динамика заполнения базы данных генетических последовательностей GenBank, http://www.ncbi.nlm.nih.gov/genbank/. А на рисунке 2 эти данные представлены в графическом виде.

Такое количество и качество биологических данных стимулирует исследователей к достижению следующих целей:

✵ Увидеть картину мира живых существ чётко и целиком, то есть понять интегрирующие аспекты биологии организмов, рассматриваемых как согласованные комплексные системы.

✵ Связать между собой последовательность, трёхмерную структуру, взаимодействия и функции отдельных белков, нуклеиновых кислот и их комплексов.

✵ Использовать данные о современных организмах как основу для изучения организмов во времени'.

- назад в прошлое, чтобы вычислить последовательность событий в эволюционной истории (филогенетический анализ),

- вперёд к научно обоснованной модификации биологических систем (биотехнология).

✵ Способствовать применению этих знаний в медицине, сельском хозяйстве и других областях.

Таблица 1 - Динамика роста базы данных GenBank

Год	Число пар оснований	Число последовательностей	Год	Число пар оснований	Число последовательностей
1982	680 338	606	1996	651 972 984	1 021 211
1983	2 274 029	2 427	1997	1 160 300 687	1 765 847
1984	3 368 765	4 175	1998	2 008 761 784	2 837 897
1985	5 204 420	5 700	1999	3 841 163 011	4 864 570
1986	9 615 371	9 978	2000	11 101 066 288	10 106 023
1987	15 514 776	14 584	2001	15 849 921 438	14 976 310
1988	23 800 000	20 579	2002	28 507 990 166	22 318 883
1989	34 762 585	28 791	2003	36 553 368 485	30 968 418
1990	49 179 285	39 533	2004	44 575 745 176	40 604 319
1991	71 947 426	55 627	2005	56 037 734 462	52 016 762
1993	157 152 442	143 492	2006	69 019 290 705	64 893 747
1994	217 102 462	215 273	2007	83 874 179 730	80 388 382
1995	384 939 485	555 694	2008	99 116 431 942	98 868 465

Рисунок 2 - Динамика заполнения базы данных GenBank генетических последовательностей http://www.ncbi.nlm.nih.gov/genbank/genbankstats-2008/

Молекула ДНК состоит из тысяч нуклеотидов, и поэтому определение полной последовательности нуклеотидов целой молекулы хромосомной ДНК представляет собой весьма сложную задачу (см. [6], п. 5). С появлением технологии клонирования генов и полимеразной цепной реакции (ПЦР) учёные получили возможность выделять отдельные фрагменты хромосомной ДНК (см. [7], п. 11). Эти достижения, в свою очередь, проложили путь к развитию быстрых и эффективных методов секвенирования ДНК.

В конце 70-х годов XX века появились два метода секвенирования, основанные, соответственно, на реакциях обрыва цепи и химического расщепления. Эти методы с некоторыми незначительными видоизменениями заложили основу для революции секвенирования 80-х и 90-х годов и последующего рождения биоинформатики.

Благодаря своей чувствительности, специфичности и возможности автоматизации, ПЦР считается передовым методом анализа образцов геномной ДНК и построения генетических карт. Последующие усовершенствования базовой технологии ПЦР дополнительно увеличили мощность и практическую ценность этой методики.

Ещё в начале 80-х годов XX века исследователи вручную (с помощью электронных самописцев) считывали последовательности ДНК с картины полос на гель-плёнке. В 1987 году Стивен Кравец (Stephen А. Krawetz) разработал первое программное обеспечение для устройств автоматического считывания информации с гелиевых плёнок.

С момента получения в 1987 году первой последовательности, секвенированной полуавтоматическим методом, практической реализации ПЦР в 1990 г. и внедрения способа флуоресцентного мечения фрагментов ДНК, производимых методом полимерного копирования по Сангеру (см. [7], и. 11.2), было осуществлено крупномасштабное секвенирование, внесшее неоценимый вклад в развитие биоинформатики. Одновременно значительное развитие получили технологии автоматизированной регистрации результатов секвенирования последовательностей.

В начале 90-х годов Крейг Вентер (John Craig Venter) с сотрудниками изобрёл новый метод определения генов. Вместо того чтобы секвенировать хромосомную ДНК с предельным разрешением в один нуклеотид, группа Вентера выделила молекулы мРНК, копировала их в молекулы кДНК и затем секвенировала некоторую часть молекулы кДНК, в результате чего были созданы ярлыки экспрессируемых последовательностей (expressed sequence tags, EST, термин, впервые предложенный Энтони Керлавейдж (Anthony Kerlavage).

Эти EST-последовательности могли быть использованы в качестве указателей (идентификаторов, "отпечатков пальцев") для выделения целого гена. Кроме того, подход с применением ярлыков EST повлек за собой организацию огромных баз данных нуклеотидных последовательностей и, как полагают, развитие метода EST показало осуществимость

проектов высокопроизводительного обнаружения новых генов и явилось ключевым толчком для развития прикладной геномики.

В 80-х годах XX века начался ряд проектов по созданию подробных генетических и физических карт генома человека (рисунок 3). Цель этих проектов состояла в расшифровке полной последовательности нуклеотидов генома человека и в определении локусов (фиксированных положений, локализации на хромосоме) предполагаемых 30 000 генов. Работа столь большого размаха стимулировала развитие новых вычислительных методов анализа генетических карт и данных секвенирования последовательностей ДНК, а также потребовала разработки новых методов и лабораторного оборудования для расшифровки и анализа ДНК.

Для максимально быстрого ознакомления широкого круга исследователей с результатами расшифровки потребовалось разработать усовершенствованные средства распространения полученной информации.

Международную научно-исследовательскую программу, явившуюся результатом этой глобальной инициативы, назвали проектом "Геном человека" (Human Genome Project, HGP). Более подробную информацию об этом и других проектах расшифровки геномов можно получить по адресам:

✵ http://genomics.energy.gov/;

✵ http://oml.gov/sci/techresources/Human_Genome/publicat/tko/index.html;

✵ http://www.geneontology.org/GO.refgenome.shtml;

✵ http://www.genome.gov/.

В 2007 г. начат проект "1000 геномов" (The 1000 Genome Project) http://www.1000genomes.org - расшифровка полных геномов 1000 человек, каждый содержащий 6 Гига-пар оснований (6 Gbp), а всего 6 Терапар оснований (6 ТЬр) [56]. К марту 2012 г. полное описание расшифрованных генов составило более 250 000 файлов объёмом более 260 Терабайт. Для этого проекта был создан Центр координации данных (DCC, Dato Coordination Center) и были разработаны технологии секвенирования нового поколения (Next-generation sequencing (NGS) technologies) [57], которые снизили стоимость секвенирования одного генома до US$5000.

Рисунок 3 - Веб-страницы геномных проектов: а - Геномной программы Департамента Энергии США; б - То Know Ourselves; в - Проект аннотации геномов; г - Национальный институт исследования генома человека

Основы биоинформатики - Огурцов А.Н. 2013

Основания биоинформатикиПредмет биоинформатикиОсобенность биоинформационных данных

Основания биоинформатики
Предмет биоинформатики
Особенность биоинформационных данных