Основы биоинформатики - Огурцов А.Н. 2013
Основания биоинформатики
Инфраструктура биоинформатики
Интернет-компоненты биоинформатики
Интернет - это глобальная сеть компьютеров и местных компьютерных сетей, связывающая многочисленные правительственные, учебные и коммерческие учреждения. Она позволяет компьютерам общаться на своих электронных языках. Биологическая информация хранится на многих компьютерах, рассеянных по всему миру, и самый лёгкий путь доступа к этой информации - объединение всех этих компьютеров в единую сеть.
Компьютеры могут быть соединены друг с другом разными способами, наиболее часто - оптоволоконными или коаксиальными кабелями и линиями беспроводной (wireless) связи, что позволяет осуществлять обмен данными между удалёнными пользователями.
Для эффективной работы созданной системы объединенных сетей был разработан единый протокол связи TCP/IP - Transmission Control Protocol / Internet Protocol (Протокол управления передачей (данных) / Интернет-протокол). TCP определяет правила разбиения данных на пакеты и последующей сборки переданных по каналу связи пакетов.
IP управляет адресацией и выбором маршрута передачи информационных пакетов по сети.
Подключённые к сети компьютеры рассматриваются как узлы и поддерживают взаимную связь посредством передачи пакетов данных.
Для осуществления передачи данные сначала разбиваются на маленькие посылаемые независимо друг от друга пакеты (единицы информации), которые потом объединяются при достижении своего адресата. Но пакеты не обязательно пересылаются непосредственно от одной машины к другой; они могут пройти через несколько компьютеров, стоящих на пути к конечному получателю. На случай если какой-либо из промежуточных узлов выбранного маршрута не работает, в сетевых протоколах предусмотрена функция поиска альтернативного пути, что возможно благодаря взаимному пересечению различных маршрутов.
Интернет предоставляет средства распространения программного обеспечения и позволяет исследователям проводить сложный анализ на удалённых серверах.
До конца 1980-х гг. существовало три основных способа доступа к базам данных через Интернет:
1) серверы электронной почты;
2) FTP;
3) сервер TELNET.
Сервер электронной почты - это средство передачи текстовых сообщений с одного компьютера на другой.
FTP (File Transfer Protocol) - это протокол пересылки компьютерных файлов между удалёнными машинами.
TELNET - это сетевой протокол, который позволяет оператору подключаться к удалённым компьютерам и работать на них, как будто они имеют физический доступ к этим машинам.
Серверы электронной почты позволяли учёным обмениваться информацией путём отправки запроса в электронном письме по адресу почтового сервера. Рано или поздно запрос обрабатывался сервером, и результат отсылался обратно в почтовый ящик отправителя. Однако такая система имела свои недостатки - запросы обрабатывались плохо, с ошибками и необходимо было неопределённо долго ждать ответ.
FTP позволял исследователю закачать полную базу данных и производить поиск на своём компьютере. Этот способ доступа к базам данных также имеет свой изъян - исследователь должен периодически загружать все используемые им базы данных после каждого их обновления.
TELNET даёт пользователю возможность подключаться к удалённому компьютеру и получать доступ к его программным и аппаратным ресурсам. Этот метод полезен для эпизодических запросов. К его неудобствам можно отнести сложное управление опознаванием пользователей и перегрузка вычислительных возможностей удалённого компьютера.
После того как компьютеры были соединены друг с другом посредством сети, возникла необходимость найти однозначный способ обозначения отдельных компьютеров таким образом, чтобы сообщения и файлы могли быть отправляемы строго своему адресату. С целью облегчения связи между узлами, каждому компьютеру в сети Интернет присвоен уникальный опознавательный номер (его IP-адрес, Internet Protocol address). ІР-адрес уникален и обозначает только один компьютер. Его записывают арабскими цифрами, разделёнными точками.
Например, компьютер Национального центра биотехнологической информации (National Center for biotechnology Information, NCBI) при Национальной медицинской библиотеке (National Library of Medicine, NLM) при Национальном институте здоровья (National Institute of Health, NIH) при правительстве США имеет следующий ІР-адрес: 130.14.29.110.
Эти числа обозначают конкретный компьютер, узел, в котором расположен этот компьютер, а также домен (и субдомен), которому этот узел принадлежит. Эти числа помогают компьютерам определять направления передачи данных.
Помимо этого была создана альтернативная иерархическая система имен доменов, устанавливающая соответствие между числовыми ІР-адресами и текстовыми именами, и благодаря которой адреса Интернета можно записывать в более понятной форме. Например, запись "ncbi.nlm.nih.gov" равносильна представленным выше числам и означает: узел "Национального центра биотехнологической информации" (ncbi) при "Национальной медицинской библиотеке" (nim) при "Национальном институте здоровья" (nih) при правительстве США (gov).
Определить соответствие между числовыми ІР-адресами и текстовыми именами, а также географическое местоположение ІР-адреса или узла Интернета можно на сайте: http://smart-ip.net/tools/geoip.
"Всемирная паутина" значительно повысила возможности доступа по перекрёстным ссылкам, обеспечив эффективную интеграцию баз данных, рассредоточенных в сети Интернет, и таким образом устранив потребность загрузки и ведения на местных компьютерах многочисленных копий баз данных. Благодаря этому исследователь может легко просматривать записи баз данных с помощью активных гипертекстовых перекрёстных ссылок с возможностью возвращения к последней просмотренной записи.
ExPASy (Еxpert Protein Analysis System - Экспертная система анализа белков, http://www.expasy.org/) - первый веб-сервер молекулярной биологии был создан в 1993 году совместно Клиникой Женевского университета и самим Женевским университетом.
Веб-страницами называют документы, которые появляются в окне программы-обозревателя (браузера), когда мы путешествуем по "Всемирной паутине". Каждый отображаемый браузером документ сети называют веб-страницей, а совокупность веб-страниц данного сервера в собирательном значении называют веб-узлом.
По своему содержанию веб-страницы подобны обычным текстовым документам, за исключением лишь того, что они намного более гибки, поскольку могут содержать ссылки на любые другие страницы и файлы, размещенные в пределах сети.
Веб-узел — это собрание взаимосвязанных веб-страниц, находящихся на одном компьютере. Каждому веб-узлу в сети Интернет присвоен уникальный адрес. Наиболее замечательная особенность веб-страниц — наличие ссылок. Ссылка на веб-странице (гиперссылка) позволяет пользователю перейти к другой странице, расположенной в том же веб-узле, или даже к какой-либо странице на другом веб-узле, расположенном в любой точке мира.
Весьма ценное качество "Всемирной паутины" - простой доступ к статическим страницам с подсвеченным текстом, по которому можно щелкать мышью и таким образом просматривать связанные между собой страницы с рассредоточенной по ним информацией.
Объектная сеть предназначена для поддержки высокофункциональных диалоговых систем. Это многозвенная архитектура, которая содержит два объекта и уровень связи.
Один объект может представлять интерфейс пользователя, а другой - обеспечивать необходимые вычисления. Для передачи данных между этими двумя объектами необходимо описать сообщения, которые они могли бы принимать.
Обмен сообщениями между двумя или более объектами осуществляется посредством специального кода ORB (Object Request Broker - Брокер объектных запросов), установленного на каждой машине и способного интерпретировать описания пересылаемых сообщений и переводить их на собственный язык каждого объекта.
С помощью объектной сети система может быть разбита на самостоятельные компоненты, написанные на разных языках и работающие на разных аппаратных системах.
CORBA (Common Object Request Broker Architecture - Общая архитектура брокеров объектных запросов) обеспечивает стандарты, унифицирующие эту связь. CORBA включает в себя язык для описания структуры сообщений, IDL (Interface Definition Language - Язык описания интерфейсов), а также архитектуру для программ-посредников, или ORB. ORB обеспечивают "прозрачную" связь между удалёнными объектами и формируют магистраль (разводку объектной сети).
Интернет-браузеры или программы-обозреватели. Весь потенциал Интернета был полностью осознан только с появлением программ-обозревателей (браузеров), которые впервые обеспечили свободный доступ к информации, расположенной на разных веб-узлах.
Браузерами (от англ. browser) или обозревателями называют приложения-клиенты, посылающие запросы серверам, используя набор стандартных протоколов и соглашений. Типичный браузер сети содержит минимальный набор программных средств, необходимых для осуществления поиска, извлечения, отображения и пересылки информации по сети Интернет.
Первая точка контакта между обозревателем и сервером — домашняя страница. После загрузки этой начальной страницы обозреватель раскрывает интерфейс, удобный для выборки документов, доступа к файлам, поиска в базах данных и т. д.
Наиболее популярными программами-обозревателями стали: Internet Explorer, Google Chrome, Mozilla Firefox, Opera, Lynx, Mosaic и Netscape Navigator.
С помощью браузера пользователи могут перемещаться по содержимому окна или между интернет-окнами, щёлкая по специальным словам, кнопкам или картинкам. Эти активизируемые щелчком мыши объекты известны под общим названием гиперссылки.
Гиперссылки при наведении на них указателя мыши обычно выделяются некоторым способом - контрастным цветом, подчеркиванием, рамкой и т. д. Щелчок по выделенной ссылке вызывает необходимый документ независимо от его местоположения: на том же самом сервере или на сервере в другой части света.
Каждому гипертекстовому документу присвоен уникальный адрес, называемый URL (Uniform Resource Locator - унифицированный указатель (информационного) ресурса). Строка URL имеет следующий стандартизованный формат:
http://coбcтвенно адрес.
Здесь http - это аббревиатура протокола связи, используемого серверами сети - протокола передачи гипертекстовых файлов (HyperText Transfer Protocol, HTTP). Этот протокол используется для обмена информацией в пределах "Всемирной паутины". Собственно адрес указывает местоположение гипертекстового документа в сети Интернет.
Гипертекстовые документы пишут на стандартном языке разметки, известном как HTML - язык разметки гипертекста (HyperText Markup Language). Код HTML строго текстоориентированный, и любая сопутствующая графическая или звуковая информация этого документа существует в виде отдельных файлов в общем формате.
Команды разметки позволяют автору веб-страницы выделять текст жирным шрифтом (команда <В>), вставлять горизонтальные линейки разметки (<HR>), изображения (<IMG>) и т. д.; каждый из этих режимов выключается соответствующим знаком </> (например </В>).
XML (extensible Markup Language - расширяемый язык разметки) - это другая технология, поддерживающая создание функционального хранилища генетической информации. XML, подобно HTML, может быть использован для создания веб-страниц. XML помечает данные способом, понятным любому другому приложению. Эта технология обеспечивает общий язык представления данных в стандартном формате. Она позволяет описывать файлы по типу содержащихся в них данных.
XML - текстовый формат, предназначенный для хранения структурированных данных (взамен существующих файлов баз данных), для обмена информацией между программами, а также для создания на его основе более специализированных языков разметки (например, XHTML), иногда называемых словарями.
Язык XML более гибкий и надёжный по сравнению с HTML. Он обеспечивает метод описания смысла, или семантики содержимого документа. Одно из его преимуществ заключается в возможности управления не только способом отображения данных на веб-странице, но также и способом обработки этих данных различными программами или DBMS (DataBase Management System - система управления базами данных, СУБД).
XML является упрощённым подмножеством языка SGML (Standard Generalized Markup Language - стандартный обобщённый язык разметки) - метаязыка, на котором можно определять язык разметки для документов. SGML - наследник разработанного в 1969 году в IBM языка GML (Generalized Markup Language).