Основы биоинформатики - Огурцов А.Н. 2013
Основания биоинформатики
Предмет биоинформатики
Перспективы применения биоинформатики
Помимо обеспечения исследователей, изучающих белки и ДНК, теоретической базой и вычислительно-аналитическим аппаратом, биоинформатика нашла применение во многих областях.
В расшифровке смыслового содержания биологических последовательностей наметились два различных аналитических направления:
✵ согласно первому подходу, учёные опираются на методы распознавания регулярных комбинаций, посредством которых обнаруживают подобие последовательностей и, следовательно, выявляют эволюционно связанные структуры и функции;
✵ согласно второму подходу, используют методы предсказания ab initio (с самого начала, из первых принципов) - для прогнозирования третичных структур и, в конечном счёте, выведения функции непосредственно по первичной последовательности. Прямое предсказание трёхмерной структуры белка по его первичной последовательности аминокислот - важнейшая цель биоинформатики.
Анализ гомологичности последовательностей. Одна из движущих сил биоинформатики - поиск подобий между различными биомолекулами. Помимо систематической организации данных, идентификация белковых гомологов имеет прямое практическое применение. Теоретические модели белков обычно основаны на структурах близких гомологов, определённых опытным путём.
Всякий раз, когда ощущается недостаток биохимических или структурных данных, исследования могут быть выполнены на низших эукариотах, например, на дрожжеподобных организмах, а результаты могут быть интерполированы на гомологичные молекулы высших организмов, например, человека.
Такой подход существенно упрощает проблему понимания сложных геномов - за счёт непосредственного анализа простых организмов и последующего распространения тех же самых принципов на более сложные организмы.
Таким методом возможно осуществлять поиск потенциальных мишеней для медикаментозного воздействия путём проведения испытаний на гомологах основных микробных белков.
Разработка лекарственных препаратов. Опирающийся на биоинформатику подход к открытию лекарств даёт важное преимущество. С помощью биоинформатики могут быть описаны генотипы, сопряжённые с патофизиологическими состояниями, что в принципе позволит опознать соответствующие молекулярные мишени. Затем по известной последовательности нуклеотидов может быть определена вероятная аминокислотная последовательность кодируемого целевого белка.
В случае принятия такого подхода методы изучения последовательностей могли бы применяться для поиска гомологов у опытных организмов. На основании подобия последовательностей было бы возможно моделировать структуру конкретного белка, взяв за основу экспериментально установленные структуры. И, наконец, компьютерные алгоритмы докинга могли бы проектировать молекулы, потенциально связывающиеся с целевым белком, отбирая наиболее перспективные варианты для биохимических испытаний, проверяющих биологическую активность этих молекул уже на реальном белке.
Гипотетический пример. Чтобы нагляднее понять роль компьютерного моделирования в молекулярной медицине, вообразим себе в будущем пандемическую ситуацию, вызванную появлением нового биологического вируса. Этот вирус вызывает эпидемию тяжёлого заболевания, как среди людей, так и среди животных. Учёные в лаборатории выделят его ДНК, и определят её последовательность.
Затем с помощью компьютерного скрининга этого нового генома по базам данных всего известного на тот момент генетического материала возможно будет охарактеризовать вирус и выявить его родство с ранее изученными вирусами. Анализ будет продолжен с целью выработки антивирусной терапии. Вирусы содержат молекулы белков, которые являются подходящими мишенями для лекарств, воздействующих на структуру и функции вируса. Из последовательности ДНК вируса компьютерные программы вычислят аминокислотные последовательности одного или нескольких вирусных белков, критически важных для репликации или сборки вируса. Из аминокислотных последовательностей другие программы вычислят структуры этих белков, следуя тому базовому принципу, что аминокислотная последовательность белка однозначно определяет его трёхмерную структуру, а, следовательно, и его функцию.
В первую очередь будет проведён скрининг баз данных для поиска родственных белков известной структуры. Если такие белки будут найдены, то проблема предсказания структуры будет сведена до предсказания действия изменений в последовательности на структуру молекулы. Методом гомологического моделирования будут предсказаны структуры белков-мишеней.
Если ни одного родственного белка с известной структурой не будет найдено, а вирусный белок окажется совершенно новым, то предсказание структуры будет сделано ab initio (с самого начала). Последняя ситуация будет возникать всё реже, по мере того, как растёт и пополняется банк данных известных структур, и увеличиваются наши возможности устанавливать отдаленное родство организмов.
Знание структуры вирусных белков сделает возможным разработку лекарственных препаратов. На поверхности белков есть участки (сайты), определяющие функции этих белков, которые чувствительны к ингибированию. Будет найдена или синтезирована малая молекула, комплементарная такому участку (сайту) по структуре и свойствам, которая будет работать как антивирусный препарат. Альтернативный вариант - создать и синтезировать одно или несколько антител для нейтрализации вируса.
Такая последовательность событий в гипотетической ситуации основана на уже сегодня чётко установленных принципах.
Многие проблемы на каждом из описанных этапов ещё не решены, и это одна из причин, по которой этот сценарий не может быть использован уже сегодня, например, для создания лекарственных препаратов против СПИДа. Другая причина состоит в том, что вирусы "знают", как себя защитить.
Наконец, следует признать, что чисто экспериментальные подходы к проблеме создания антивирусных препаратов могут ещё много лет оставаться успешнее теоретических. Наиболее вероятным будет параллельное совершенствование и взаимное дополнение экспериментальных и биоинформационных методов разработки лекарственных препаратов.
Моделирование. Благодаря информационным технологиям массового просмотра и сравнения данных можно получить ответ на ряд вопросов, касающихся эволюционных, биохимических и биофизических характеристик исследуемых биомолекул. Стало возможным установить:
а) специфические мотивы укладки белка, соответствующие определённым филогенетическим группам;
б) общность между различными вариантами укладки белковых глобул, наблюдаемыми у отдельных организмов;
в) долю аналогичных третичных структур, общих для родственных организмов;
г) количественные параметры, определяющие степень родства, полученного из обычных эволюционных деревьев;
д) индивидуальные различия метаболических путей у разных организмов.
Кроме того, на основании того факта, что особенности укладки белковой глобулы часто связаны с определёнными биохимическими функциями, можно получать данные относительно функций белка. Анализируя информацию об экспрессии генов, одновременно со структурной и функциональной классификацией белков можно предсказать карту взаимодействий всех белков того или иного организма и её эволюцию во времени.
Медицина. Медицинские приложения биоинформатики связаны, главным образом, с анализом экспрессии генов. Как правило, регистрируют данные об экспрессии в клетках, поражённых различными заболеваниями, и затем сравнивают эти измерения с нормальными уровнями экспрессии. Те гены, которые демонстрируют изменения в экспрессии в поражённых клетках, вероятнее всего и связаны с данным заболеванием. Это позволяет выяснить причину болезни и указывает потенциальные мишени для лекарственных препаратов.
Располагая подобной информацией, можно разрабатывать соединения, которые связываются с экспрессируемым белком. Далее могут быть проведены эксперименты на микроматрицах, чтобы оценить реакцию на фармакологическое воздействие полученного опытного соединения. Подобный подход может помочь также при разработке тестов для обнаружения или прогноза токсичности опытных лекарств на стадии клинических испытаний.
Объединение биоинформатики с экспериментальной геномикой позволит решить целый ряд актуальных задач, например, (1) послеродовое определение генотипа для оценки восприимчивости или устойчивости индивидуума к определённым болезням и патогенам; (2) индивидуальное предписание уникального сочетания вакцин; (3) уменьшение затрат на лечение за счёт повышения эффективности терапии и предупреждения рецидивов заболевания. Все вместе эти новшества могут привести к разработке индивидуальных пищевых рационов и выявлению заболеваний на ранних стадиях.
Кроме того, программы медикаментозного лечения могли бы индивидуально подбираться для конкретного пациента и его заболевания, и, таким образом, обеспечивать наиболее эффективный курс лечения с минимальными побочными эффектами.
В частности, проекты "Геном человека" и "1000 геномов" принесут несомненную пользу судебной медицине и фармацевтической промышленности, приведёт к открытию многих "полезных" и "вредных" генов, внесёт неоценимый вклад в развитие представлений об эволюции человека. Кроме того, он будет способствовать разработке методов диагностики болезней, возможных осложнений, предсказанию генетически обусловленных реакций на терапевтическое воздействие, а также будет способствовать развитию индивидуальных подходов к лечению, методов обнаружения мишеней для лекарственных препаратов и, наконец, становлению генотерапии.
Права на интеллектуальную собственность. Права на интеллектуальную собственность - это неотъемлемая часть современных деловых отношений. Под правами на интеллектуальную собственность понимают средства защиты любых нематериальных активов. Примеры интеллектуальной собственности: патент, авторское право, торговая марка и коммерческая тайна. Патент - это исключительная монополия, предоставляемая правительством изобретателю на пользование его изобретением в течение ограниченного периода времени.
Главные области биоинформатики, которые нуждаются в защите интеллектуальной собственности, следующие:
а) средства управления информацией и её анализа (например, методы моделирования, базы данных, алгоритмы, программное обеспечение и т. д.);
б) геномика и протеомика;
в) открытие (разработка) лекарственных препаратов.
Львиная доля новых разработок в биоинформатике относится к применению программного обеспечения (в том числе протоколов), предназначенного для сбора и (или) обработки биологических данных.
Эти изобретения подпадают под общую категорию изобретений в области компьютерных наук и подразделяются на изобретения, реализованные на компьютерах, и изобретения, использующие машиночитаемые носители информации.
Все эти изобретения имеют две составляющие: программное обеспечение и аппаратные средства компьютеров.
Например, основанная на критерии подобия автоматизированная система распознавания новых групп последовательностей нуклеотидов в заданном наборе нуклеотидных последовательностей может включать в себя устройство ввода, память и процессор (в качестве аппаратных компонентов системы), а также набор данных или метод использования команд, хранимых в памяти и выполняемых процессором, - как программное обеспечение системы. Патентная охрана необходима в защите методов, использующих вычислительные возможности, таких как методы выравнивания последовательностей, поиска гомологии и моделирования метаболических путей.
Геномика осуществляет выделение и описание генов, и приписывание последовательностям этих генов некоторых функций или назначений (например, экспрессии специфического белка или обозначения этого гена в качестве маркера определённой болезни). Эта работа предполагает проведение большого числа лабораторных испытаний и применения разнообразных вычислительных методов. Эти методы также могут быть защищены правами на интеллектуальную собственность.
Протеомика занимается очисткой и описанием белков, используя технологии типа двумерного гель-электрофореза, многомерной хроматографии и масс-спектроскопии. Применение этих методов к определению свойств и обнаружению связи белка, то есть маркера, со специфической болезнью, является весьма сложным и трудоёмким процессом и требует значительных инвестиций.
Методы разработки лекарственных средств с применением автоматического моделирования, которое предполагает использование компьютеров и вычислительных алгоритмов, также могут быть отнесены к интеллектуальной собственности.
Контрольные вопросы и задания
1. Дайте определение биоинформатики.
2. Какую дату можно считать датой выделения биоинформатики в отдельную научную область?
3. В чём состоят специфические особенности биоинформационных данных?
4. Что такое секвенирование и какую роль играет секвенирование в биоинформатике?
5. Где хранятся биоинформационные данные?
6. Какие три компонента включает в себя предмет биоинформатики?
7. Каковы цели биоинформатики?
8. Какие задачи стоят перед биоинформатикой?
9. В каких видах деятельности реализуется предмет биоинформатики?
10. Какую роль играет анализ гомологических последовательностей в расшифровке биологической информации?
11. Каким образом биоинформатика способствует разработке лекарственных препаратов?
12. Какие области биоинформатики нуждаются в защите интеллектуальной собственности?