Основы биоинформатики - Огурцов А.Н. 2013

Методы биоинформационного анализа
Матрицы замен
Мера сходства последовательностей

Для количественного измерения сходства и различия последовательностей вводят понятие расстояния (distance) между двумя строками последовательностей.

Мерой расстояния является функция, которая так же, как и мера подобия, присваивает численное значение паре последовательностей, но только на основании иного принципа: чем больше расстояние, тем меньше подобие (и наоборот). Меры расстояния обычно удовлетворяют математическим аксиомам метрики.

В большинстве случаев меры расстояния и подобия взаимозаменимы - в том смысле, что маленькое расстояние означает высокое подобие, и наоборот.

Существует два метода измерения расстояния между двумя данными строками последовательностей.

1. Расстояние Хэмминга (the Hamming distance) определяется количеством несовпадающих позиций между двумя последовательностями одинаковой длины.

Например, расстояние по Хэммингу равно 2 для данных последовательностей

2. Расстояние Левенштайна (the Levenshtein distance) или "редакционное расстояние" - это минимальное число операций редактирования (удаление, вставка или замена), необходимых, чтобы превратить одну строку в другую. (Любая последовательность редактирующих операций порождает уникальное выравнивание, но не наоборот.)

Например, расстояние по Левенштайну равно 3 для данных последовательностей





Для любых предложений по сайту: [email protected]