Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014
Функциональное разнообразие в элементах упаковки и надсемействах
Разнообразие функций гомологичных белков
Определения
В целом, выявление гомологии (связей между надсемействами) является гораздо более полезным при предсказании функций, чем выявление лишь структурного сходства (связей между способами укладки). В этом разделе рассматривается связь между гомологией структур и функциональным разнообразием. Показано, что даже в случаях определения гомологии остается множество препятствий при попытках использовать функциональные аннотации одного белка для описания другого.
Прежде, чем объяснять, каким образом функция в надсемействах дивергирует, необходимо дать четкое определение термину надсемейство и представление о том, как он используется на практике. Также вводится термин семейство, который используется в настоящем разделе.
6.3.1.1. Общие представления
Надсемейство - это группа белков, которые считаются эволюционно связанными друг с другом. Связи между белками в надсемействе можно установить по сходству последовательностей, которое определяется с помощью традиционных методов выравнивания последовательностей или более чувствительного поиска с использованием СММ (Reid et al. 2007). В отсутствие сходства последовательностей на основе анализа структуры можно также выявить наличие отдаленной гомологии и/или сходства функций. Однако, в отличие от сходства последовательностей, в последнем случае не существует широко признанных способов оценки уровня статистической значимости структурного или функционального подобия. По этой причине отсечки, используемые для определения связей в рамках надсемейства, могут быть произвольными и до некоторой степени субъективными. На сегодняшний день некоторые базы данных, такие как САТН и SCOP, разработали стандартные и широко принятые определения надсемейств (см. раздел 6.3.2.1). Однако во всех этих базах данных до сих пор присутствует определенная степень субъективности при отнесении белка к надсемейству, что подтверждается рядом фактов: во-первых, при определении принадлежности белка к тому или иному семейству по-прежнему требуется ручная проверка достоверности, а во-вторых, для некоторых доменов различные базы выдают несовместимые результаты (Greene et al. 2007; Andreeva et al. 2008). Следует отметить, что в настоящее время как в САТН, так и в SCOP предварительная классификация новых белковых структур осуществляется с помощью автоматических протоколов, однако окончательное отнесение белка к надсемейству попрежнему включает ручную обработку данных.
Понятие о семействе более расплывчато. В настоящее время под семейством в общем случае понимают подсистему классификации гомологичных белков, соответствующую ряду критериев. Так, к семейству последовательностей с определенным уровнем сходства относятся все белки, которые характеризуются по меньшей мере этим уровнем сходства; к функциональному семейству относятся гомологи, которые имеют общую функцию; к ортологичному семейству относятся все ортологи и т.д. В зависимости от направленности базы данных, определение семейства будет меняться.
6.3.1.2. Практические подходы
В настоящем разделе описаны только базы данных, содержащие сведения о структурах.
САТН и Gene3D. В классификации САТН домены данной топологии (см. раздел 2.1.2) затем относят к одному и тому же надсемейству гомологов (Н-уровенъ, от “Homologous”), если считается, что они имеют общего предка. Два домена считаются гомологичными, если они удовлетворяют по меньшей мере двум из следующих критериев: а) структурное сходство, определенное с помощью отсечек, разработанных опытным путем; б) сходство последовательностей, определенное с помощью стандартных методов сравнения последовательностей и поиска СММ; в) функциональное сходство, определенное с помощью ручного анализа. С помощью Gene3D эта классификация распространяется на белки неизвестной структуры: поиск последовательностей осуществляют среди профилей СММ библиотеки САТН и таким образом устанавливают принадлежность частей последовательностей к гомологичным надсемействам САТН (Yeats et al. 2008). Надсемейства САТН далее делят на семейства последовательностей, для каждого из которых определены отсечки идентичности последовательности. Для определения неизбыточных групп белков используется отсечка, составляющая 35% идентичности последовательности (семейства s35).
SCOP и Superfamily. Для надсемейств SCOP гомология определяется на основании сходства последовательностей или сравнения структурных и функциональных свойств, выполненного вручную (Andreeva et al. 2008). Такой подход, подразумевающий распределение белков по группам вручную, предоставляет сообществу исследователей возможность использовать классификацию доменных структур, которую постоянно курируют эксперты, однако и не лишен свойственного всем ручным процессам недостатка - неизбежного наличия субъективных решений. Домены относят к одному семейству SCOP, если между ними установлена “четкая эволюционная связь”. На практике это определение в общем случае означает, что белковые домены относят к одному семейству, если идентичность парных остатков составляет для них более 30%. Однако иногда домены относят к одному семейству и в отсутствие высокой степени идентичности последовательностей - в том случае, если сходство структуры и функций являются однозначным доказательством общего происхождения. Это свойство наделяет систему классификации определенной гибкостью при установлении гомологичных связей, но также повышает степень субъективности процесса. С помощью базы данных Superfamily можно классифицировать белки неизвестной структуры, используя информацию SCOP для описания последовательностей на уровне семейств и надсемейств (Wilson et al. 2007). Как и в случае Gene3D, для оценки соответствия между последовательностями в Superfamily используются профили СММ, основанные на данных SCOP.
SFLD (от “The Structure-Function Linkage Database”) - недавно разработанная база данных, специфическая цель которой - исследование связей между структурой и функциями гомологичных ферментов. В настоящее время база содержит относительно небольшое количество надсемейств по сравнению с САТН и SCOP, однако предоставляет для них подробное описание эволюции функций. В SFLD ферменты, принадлежащие к одному надсемейству, должны обладать не только гомологией, но и общей отличительной чертой механизма каталитической реакции с участием консервативных структурных элементов (Pegg et al. 2006). Семейства SFLD состоят из ферментов, выполняющих одну и ту же общую реакцию в данном надсемействе.