Основы биоинформатики - Огурцов А.Н. 2013

Основания биоинформатики
Инфраструктура биоинформатики
Компьютерные компоненты биоинформатики

Сегодня информационно-компьютерные компоненты являются неотъемлемой частью биотехнологии. Компьютеры необходимы для управления биологическими данными, объём и сложность которых непрерывно растут. Появление международной сети Интернет произвело революцию в мире связи. Создание World Wide Web (WWW, "Всемирная паутина") способствовало успешному внедрению и развитию Интернета. Интернет, будучи глобальной сверхмагистралью, даёт возможность пользователям свободно перемещаться в пределах WWW - крупнейшего собрания разнородных информационных ресурсов.

Компьютер - это электронная вычислительная машина, применяемая для хранения и обработки информации в режиме двоичного счёта. Появление биоинформатики было бы невозможным без достижений в области конструирования аппаратных средств и разработки программного обеспечения. Для хранения информации необходимы носители с высокой скоростью работы и большой ёмкостью. Для осуществления выборки и анализа информации нужны специальные программы.

Аппаратными средствами компьютера являются физические устройства: процессор, дисководы и дисплей.

Программное обеспечение - это собирательный термин, обозначающий совокупность различных программ, предназначенных для выполнения на компьютерах. Программное обеспечение подразделяют на две категории: системное и прикладное.

Системное программное обеспечение включает в себя операционную систему компьютера и совокупность любых других программ, необходимых для запуска приложений, тогда как прикладное программное обеспечение устанавливается пользователем для выполнения специальных задач.

Компьютерные программы пишут на самых разных языках программирования: в машинных кодах, на ассемблерах или же языках высокого уровня. Программы, написанные на ассемблере или языке высокого уровня, должны быть преобразованы в машинный код путём ассемблирования и компиляции.

В операционной системе Windows файлы в машинном коде называются исполняемыми файлами, а соответствующие файлы в системе Unix - исполняемыми образами. Такие файлы непосредственно выполняются процессором компьютера.

Сценарии - это файлы, выполняемые какой-либо программой. Их пишут на таких языках подготовки сценариев, как, например, Microsoft Visual Basic, Java Script и PERL.

Существует множество различных языков программирования, подготовки сценариев и разметки, нашедших свое применение в биоинформатике.

HTML (LiyperText Markup Language - язык разметки гипертекста) - предназначен для задания внешнего вида гипертекстового документа, включая определение позиций гиперссылок. Следует отметить, что HTML не является языком программирования.

Java Script - это популярный язык подготовки сценариев, который расширяет функциональные возможности гипертекстового документа, позволяя включать в веб-страницы такие элементы, как всплывающие окна, анимации, а также объекты, изменяющие внешний вид при наведении на них указателя мыши.

Java представляет собой универсальный и машинонезависимый язык программирования, предназначенный для создания приложений, выполнимых на различных аппаратных платформах. Исходный код Java - "C++". Java отличается от Java Script. Апплеты Java встраивают в гипертекстовые документы.

XML (extensible Markup Language - расширяемый язык разметки) - позволяет описывать файлы по типу содержащихся в них данных.

Phyton (Пайтон) - это полный объектно-ориентированный интерпретируемый, переносимый язык сверхвысокого уровня, язык подготовки сценариев, написанный Гвидо ван Россумом (Guido van Rossum) в 1998 году. Программирование на Phyton позволяет быстро и качественно получать необходимые программные модули. Интерпретатор Пайтона может быть перенесён на любую платформу, будь то Unix, Windows, Linux, RiscOS, MAC, Sun. При написании кода на Phyton не нужно заботиться о конечной платформе, кроме тех случаев, когда используются специфические модули для данной системы. Таким образом, Phyton представляет конкурента для Java, обеспечивая лёгкую переносимость, одновременно сочетая в себе средства доступа к ресурсам операционной системы. Phyton содержит средства быстрого и лёгкого формирования графического интерфейса пользователя, библиотеку применяемых в структурной биологии функций и обширную библиотеку численных методов. Phyton может быть загружен со своей домашней страницы: http://python.org.

PERL (Рradical Extraction and Reporting Language - практический язык извлечения данных и формирования отчетов) - универсальный язык сценариев, который широко используется в анализе данных секвенирования. PERL был изобретен Лэрри Уоллом (Larry Wall) на основе языков "Sed", "Awk", оболочки Unix и "С". PERL позволяет выполнять превосходное сопоставление регулярных комбинаций знаков, имеет гибкий синтаксис, или грамматику, и требует сравнительно небольшое число кодов для программирования различных операций. Он хорош для обработки строк, то есть основных действий, производимых при анализе последовательностей и управлении базами данных. Этот язык контролирует и оптимизирует распределение памяти компьютера, а также имеет хорошую совместимость с вычислительными системами, работающими на Unix. Он доступен в сети для свободного копирования, компиляции и распечатки. PERL может быть загружен со своей домашней страницы: http://www.perl.org.

Языки PERL и Phyton наиболее пригодны при создании приложений для биоинформатики - во многом благодаря своей эффективности и способности удовлетворять разнообразным функциональным требованиям данной области.

BSML (Вioinformatic Sequence Markup Language - язык разметки последовательностей в биоинформатике) графически описывает генетические последовательности и методы хранения и передачи закодированной информации о структуре последовательностей, а также сопутствующей графической информации.

BIOML (Biopolymer Markup Language - язык разметки биополимеров) обеспечивает описание типа данных для аннотирования информации о последовательности молекулярного биополимера и данных о его структуре.

Операционная система (ОС) - это основная программа, которая управляет всеми периферийными устройствами и контролирует работу других (прикладных) программ.

BIOS (Ваuс Input-Output System - базовая система ввода-вывода) - операционная система низкого уровня, которая частично или полностью реализована аппаратным путём (то есть, записана в ПЗУ). BIOS управляет действиями компьютера, например, принятия решений о подключении тех или иных устройств при включении компьютера, чтения и записи дисков, возвращения ответов на ввод, отображения на мониторе отчетов системы и диагностики служебных устройств. Затем управление переходит к операционной системе высокого уровня и на дисплее компьютера появляется типичный графический интерфейс пользователя. Файлы, которые содержат команды для операционной системы, в Windows называют командными файлами, а в Unix - основными сценариями.

Операционная система Windows, принадлежащая корпорации Microsoft, - наиболее привычная операционная система для домашних и офисных персональных компьютеров.

Большая часть корпоративных рабочих станций и серверов работает под различными версиями операционной системы Unix. Операционные системы GNU и Linux соответствуют стандарту Unix.

Операционная система обеспечивает доступ к имеющимся в компьютере файлам и программам.

Unix - это мощная операционная система для работы в режиме коллективного обслуживания пользователей. Первое программное обеспечение для работы World Wide Web было разработано именно на базе ОС Unix. Операционная система Unix изобилует различными командами и функциональными возможностями - от сетевых программ до текстовых редакторов и от электронной почты до программ чтения новостей. Кроме того, она обеспечивает свободный доступ к предназначенным для загрузки из сети программам, написанным для систем Unix. В настоящее время ОС Unix существует в различных формах и реализациях.

Операционная система Linux считается некоммерческой версией Unix для персональных компьютеров, поскольку она может быть бесплатно загружена из сети и установлена на компьютер. Под управлением ОС Linux персональные компьютеры оказались весьма универсальными и удобными рабочими станциями. Некоторые важные пакеты программ для вычислительной биологии рассчитаны на работу в ОС Linux.

IBION - новая машинонезависимая и функционально законченная система для биоинформатики. Это крупнейший сервер, приспособленный для нужд биоинформатики: он содержит в себе вебсервер Apache, реляционную базу данных postgreSQL, статистический язык "R" и работает на аппаратных средствах фирмы Intel с предварительно установленными ОС Linux и полным комплектом программ и баз данных для биоинформатики.

Обычно программное обеспечение поставляется на дискетах или компакт-дисках. Мы говорим, что файл закачивается (загружается, download), когда он копируется с удалённого источника на местный компьютер, и что он скачивается (upload), когда копируется с жесткого диска компьютера и передаётся к удалённому источнику.

Загрузка (download) из Интернета возможна тремя путями:

1) непосредственно из гипертекстового документа;

2) с FTP-сервера;

3) по электронной почте.





Для любых предложений по сайту: [email protected]