Основы биоинформатики - Огурцов А.Н. 2013
Информационные принципы в биотехнологии
Функционирование и организация геномов
Локализация генов в геноме
Компьютерные программы для анализа, геномов определяют открытые рамки считывания (ORF, open reading frame). ORF - это районы ДНК, которые начинаются со старт-кодона (atg) (в некоторых прокариотах старт-кодонами могут также быть gtg и ctg) и заканчиваются стоп-кодоном. ORF является потенциальным белок-кодирующим фрагментом (см. п. 11.1).
Возможны два подхода к идентификации белок-кодирующих областей молекул ДНК.
Первый подход основан на определении районов похожих на известные белок-кодирующие области из других организмов. Эти районы могут кодировать аминокислотные последовательности, похожие на известные белки, или могут быть похожими на ярлыки экспрессируемых последовательностей (EST, expressed sequence tag). Поскольку EST определены из мРНК, они соответствуют генам, о которых точно известно, что они экспрессируются. В этом случае необходимо секвенировать всего несколько сотен начальных нуклеотидов кДНК, чтобы получить достаточно информации для идентификации гена (см. п. 11.3).
Образно говоря, определение гена по EST подобно индексированию стихов или песен по первым строкам.
Второй подход основан на методе ab initio (от начала) поиска и идентификации генов на основе только знания последовательности.
Компьютерная аннотация генома является более точной и полной для бактерий, чем для эукариот. Бактериальные гены сравнительно легко аннотировать, поскольку они непрерывны - в них нет интронов, характерных для эукариот, а межгенные промежутки достаточно малы.
В высших организмах идентификация генов сложнее. Идентификация экзонов - одна из проблем, тесно связанная с другой проблемой - альтернативным сплайсингом.
Процедура предсказания генов ab initio в эукариотических геномах имеет следующие особенности.
Начальный экзон (5') начинается со старта транскрипции, перед которым расположен сайт основного промотора (core promoter), такого как tata-бокс, который обычно располагается на расстоянии 30 bp перед геном. Начальный экзон обычно не содержит стоп-кодонов в рамке и заканчивается непосредственно перед сигналом сплайсинга gt. Изредка экзону, содержащему стартовый кодон, предшествует некодирующий экзон (UTR, untranslated region) (см. [7], п. 2.4).
Внутренние экзоны, также как и начальные, не содержат стоп-кодонов в рамке. Они начинаются сразу после сайта сплайсинга аg и заканчиваются непосредственно перед сайтом сплайсинга gt. Предшествующий интрон содержит так называемый сайт ветвления и полипирими- диновый тракт, которые взаимодействуют с аппаратом сплайсинга.
Конечный экзон (3') начинается сразу после сайта сплайсинга аg и заканчивается стоп-кодоном, после которого идёт сайт полиаденилирования. Иногда за экзоном, в котором расположен стоп-кодон, следует ещё и некодирующий экзон (UTR).
Все кодирующие последовательности статистически (по предпочтительности использования кодонов) отличаются от некодирующих последовательностей (см. п. 11.1). Эмпирически установлено, что по статистике гексануклеотидов возможно достаточно эффективно различать кодирующие и некодирующие участки.
После того, когда удалось установить некоторое количество генов данного организма, то, используя статистику использованных кодонов, можно определить дополнительные параметры для распознающих программ с целью увеличения эффективности распознавания других генов в геноме этого организма.