Loading AI tools
последовательность нуклеотидов или аминокислот, слабо меняющаяся в процессе эволюции Из Википедии, свободной энциклопедии
Моти́в в молекулярной биологии это группа относительно коротких последовательностей нуклеотидов или аминокислот, обладающих достаточным сходством вследствие выполнения ими одной биологической функции, например, связывания одного транскрипционного фактора, и, как следствие, слабо меняющияся в процессе эволюции [1][2][3]. Таким образом, под мотивом подразумевают не конкретную последовательность, а каким-либо образом описанный спектр последовательностей, каждая из которых способна выполнять определённую биологическую функцию данного мотива[4].
Мотивы встречаются в живых организмах повсеместно и выполняют множество жизненно важных функций, таких как регуляция транскрипции и трансляции (в случае нуклеотидных мотивов), посттрансляционная модификация и клеточная локализация белков, и частично обуславливают их функциональные свойства (лейциновая молния)[2][5]. Они широко используются в биоинформатике для предсказания функций генов и белков, построения карт регуляции, важны для многих задач генной инженерии и молекулярной биологии в целом[6][7][8].
В связи с практической важностью мотивов, разработаны как биоинформатические методы их поиска (MEME, Gibbs Sampler), так и методы поиска мотивов in vivo (ChIP-seq, ChIP-exo). Последние довольно часто дают приблизительные координаты мотивов и их результаты затем уточняются биоинформатическими методами[1][2][6].Для удобства хранения мотивов в базах данных используются их разные, отличающееся степенью детальности, представления, наиболее распространенными из которых являются консенсус и позиционная весовая матрица[2].
Следует отличать мотив от консервативных участков в близкородственных организмах, необладающих значимыми биологическими функциями, где мутационный процесс не успел ещё достаточно их изменить[9].
В случае с ДНК чаще всего мотивы представляют собой короткие последовательности, являющиеся сайтами связывания для белков, таких, как нуклеазы и транскрипционные факторы, или вовлечённые в важные регуляторные процессы уже на уровне РНК, такие как посадка рибосомы, процессинг мРНК и терминация транскрипции[4].
Изучение мотивов в ДНК стало возможным благодаря появлению в 1973 году[10] процедуры секвенирования ДНК (определения последовательности нуклеотидов фрагмента ДНК). Первыми были определены последовательности lac-оператора и лямбда-оператора[11]. Однако до появления более производительных методов секвенирования[12], количество последовательностей мотивов оставалось достаточно малым. К концу 1970-х годов появилось множество примеров мутантных последовательностей (сайтов), связывающих транскрипционные факторы и последовательностей с изменённой специфичностью[13]. С увеличением количества последовательностей, стали развиваться и методы теоретического предсказания мотивов. В 1982 году была впервые сконструирована позиционно-весовая матрица (ПВМ) мотива сайта инициации трансляции. С помощью построенной ПВМ были предсказаны другие сайты инициации трансляции[14]. Этот подход оказался достаточно мощным и до сих пор в разных формах применяется для поиска известных мотивов в геномах, а конкретные методы различаются только видом весовой функции[4]. Однако подход, основанный на построении ПВМ на базе уже имеющихся последовательностей, не позволял находить принципиально новые мотивы, что является более сложной задачей. Первый алгоритм, решавший эту задачу, был предложен Галласом с коллегами в 1985 году[15]. Этот алгоритм был основан на поиске общих слов в наборе последовательностей и давал большой процент ложноотрицательных результатов, однако он стал основой для целого семейства алгоритмов[16]. Позднее были разработаны более точные вероятностные методы: алгоритм MEME, основанный на процедуре максимизации ожидания[17] и алгоритм Gibbs Sampler, также основанный на процедуре максимизации ожидания[18]. Оба метода оказались очень чувствительными и используются в настоящее время для предсказания мотивов в наборах последовательностей.
После разработки мощных средств для предсказания мотивов связывания транскрипционных факторов и установления соответствия между достаточным количеством транскрипционных факторов и мотивов, стало возможным предсказывать функции оперона, лежащего поблизости от мотива по специфичности транскрипционного фактора, с ним связывающегося и наоборот, предсказывать транскрипционный фактор по генам в опероне, лежащем рядом с определённым мотивом[3].
Характерными примерами регуляции транскрипции, осуществляемой с помощью белка, распознающего специальный мотив, являются:
Одними из наиболее известных примеров регуляции трансляции при помощи мотив-распознающих регуляторов являются:
Сила взаимодействия белка или РНК с ДНК мотивом зависит в первую очередь от последовательности данного мотива. Различают «сильные» мотивы, дающие сильное взаимодействие с белком или РНК и «слабые» мотивы, с которыми взаимодействие слабее. Практически всегда удаётся получить так называемую «консенсусную последовательность» («консенсус»), то есть такую последовательность, в каждой позиции которой стоит буква, наиболее часто встречающаяся в соответствующей позиции в последовательностях мотивов из разных организмов. Консенсусная последовательность принимается за самую сильную, каковой она почти всегда и является[23]. Более слабые мотивы получаются из неё с помощью небольшого (чаще всего 1—3) числа замен[24].
В процессе эволюции сила мотивов регулируется с помощью естественного отбора, причём мотив может становиться как сильнее, так и слабее[25]. Характерным примером такой подстройки силы мотива может служить изменчивость последовательности Шайна — Дальгарно (ШД). Есть тесная корреляция между необходимым организму количеством транслируемого белка и силой ШД перед ним[8].
В случае с ШД, хотя сила связывания белка и напрямую коррелирует с силой связывания 16S-субъединицы рибосомы, в связи с особенностями инициации трансляции, консенсусная последовательность не обязательно будет гарантировать наиболее эффективную трансляцию (из-за затруднённого ухода рибосомы с сайта инициации)[6]. Поэтому последовательность Шайна — Дальгарно чаще всего содержит 4—5 нуклеотидов из консенсусной последовательности при длине последней примерно в 7 нуклеотидов[26].
Не всегда наличие мотива, явно выполняющего биологически значимую роль, влечёт за собой наличие белка-регулятора. Регуляция также может осуществляться за счёт связывания РНК с каким-либо низкомолекулярным веществом. На этом принципе построены РНК-переключатели — структуры, образующиеся на РНК во время транскрипции, способные связывать малые молекулы[27][28]. Связывание молекулы влияет на способность рибопереключателя останавливать транскрипцию или препятствовать трансляции. В этом случае важной оказывается не последовательность нуклеотидов как таковая, а наличие комплементарных нуклеотидов на нужных местах в последовательности[4].
Регуляция трансляции также может осуществляться только за счёт образуемой нуклеиновой кислотой вторичной структуры.
Зачастую, мотивы, связывающие транскрипционные факторы, имеют вид прямых повторов некоторой последовательности, обратных повторов или палиндромных последовательностей. Это можно объяснить работой транскрипционных факторов в виде димеров белков, в которых каждый из мономеров связывает одну и ту же последовательность. Встречаются также мотивы большей повторности[6]. Такое строение мотивов обеспечивает большую резкость реакции на изменение внешних условий. К примеру, если связывание зависит от концентрации одного вещества в клетке, то получаем зависимость силы реакции клетки, описываемую уравнением Михаэлиса — Ментен. С увеличением числа связывающихся единиц белка (будем считать, что действие связывания белка с мотивом проявляется только в случае связывания со всеми повторами) зависимость всё больше становится похожей на сигмоиду, в пределе стремясь к функции Хевисайда, описывающей один из главных принципов реагирования живых систем на многие воздействия — закон «всё или ничего» (англ. all-or-nothing law)[6], к примеру, формирования потенциала действия[31].
Для белков следует различать
Мотивы в первичной структуре похожи на мотивы в нуклеиновых кислотах. Характерными примерами таковых являются:
В белках структурные мотивы описывают связи между элементами вторичной структуры. Такие мотивы часто имеют участки переменной длины, которые в некоторых случаях могут и вовсе отсутствовать[22].
Кроме бета-шпильки выделяют и множество других мотивов, функция которых состоит в формировании структурного каркаса белка[43].
Близким к термину структурный мотив белка является укладка — характерное расположение элементов вторичной структуры. В силу своей схожести термины часто используются один вместо другого и грань между ними размыта[43][44].
Изначально имеется набор мотивов из разных последовательностей и ставится задача[2]:
Существует несколько общепризнанных способов представления мотивов[45]. Часть из них подходит как для белков, так и для нуклеотидов, другая часть — только для белков или нуклеотидов.
Строгим консенсусом мотива назовем строчку, состоящую из самых представленных букв в множестве реализаций мотива. На практике, указывается не просто наиболее частая буква в данной позиции, но и, если максимальная частота встречаемости какой-либо буквы в данной позиции меньше заданного порога, то на этом месте в консенсусе ставится x
(любая буква алфавита). По такому консенсусу мы почти наверняка находим последовательности, реально являющиеся мотивами, но упускаем большое число мотивов, отличающихся от консенсуса на несколько замен[2][4][9]. Ниже приведён пример строгого консенсуса для участка мотива пяти взятых из UniProt белков с мотивом лейциновой молнии (порог был взят равным 80 %):
Номер позиции | |||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
UniProt ID | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
O35048 | L | S | P | C | G | L | R | L | I | G | A | H | P | I | L |
Q6XXX9 | L | G | Q | D | I | C | D | L | F | I | A | L | D | V | L |
Q9N298 | L | G | Q | V | T | C | D | L | F | I | A | L | D | V | L |
Q61247 | L | S | P | L | S | V | A | L | A | L | S | H | L | A | L |
B0BC06 | L | T | I | G | Q | Y | S | L | Y | A | I | D | G | T | L |
Консенсус | L | x | x | x | x | x | x | L | x | x | x | x | x | x | L |
Нестрогим консенсусом назовем последовательность списков букв, наиболее представленных на соответствующем месте. Описываются все или наиболее часто встречающиеся буквы в данной позиции (обычно устанавливается минимальный порог частоты)[2]. Фактически, мотив описывается при помощи регулярного выражения[4][9]. В качестве обозначений используют:
ABC
— строка из символов алфавита, обозначающая последовательность символов, следующих друг за другом;[ABC]
— любая строка символов, взятых из алфавита в квадратных скобках соответствует любому из соответствующих символов; например [ABC] соответствует или A или B или C;{ABC..DE}
— любая строка символов, взятых из алфавита, соответствует любой аминокислоте, кроме тех, что находятся в фигурных скобках; например {ABC}
соответствует любой аминокислоте, кроме A
, B
и C
;x
в нижнем регистре — любой символ алфавита.В случае с таким представлением приходится балансировать между чувствительностью консенсуса (количеством реальных мотивов, которые им получится отыскать) и специфичностью (способностью метода отбраковывать мусорные последовательности)[1]. Ниже приведен пример нестрого консенсуса для тех же пяти последовательностей белков, что и для строго консенсуса (порог был взят равным 20 %). Видим, что в позиции 10 мотив не совсем объективен — лейцин (L
) и изолейцин (I
) — очень близкие по свойствам аминокислоты, и логично было бы их обе занести в консенсус.
Номер позиции | |||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
UniProt ID | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
O35048 | L | S | P | C | G | L | R | L | I | G | A | H | P | I | L |
Q6XXX9 | L | G | Q | D | I | C | D | L | F | I | A | L | D | V | L |
Q9N298 | L | G | Q | V | T | C | D | L | F | I | A | L | D | V | L |
Q61247 | L | S | P | L | S | V | A | L | A | L | S | H | L | A | L |
B0BC06 | L | T | I | G | Q | Y | S | L | Y | A | I | D | G | T | L |
Консенсус | L | [SG] | [PQ] | x | x | C | D | L | F | I | A | [LH] | D | V | L |
PROSITE использует ИЮПАК для обозначения однобуквенных кодов аминокислот, за исключением символа конкатенации «-», используемого между элементами паттерна. При использовании PROSITE добавляется несколько символов, облегчающих представление белкового мотива[46]:
<
' — шаблон ограничивается N-концом последовательности;>
' — шаблон ограничивается C-концом последовательности;Если e
— шаблон элемента, и m
и n
два десятичных целых числа и m
<= n
, то:
e(m)
эквивалентно повторению e
ровно m
раз;e(m,n)
эквивалентно повторению e
ровно k
раз для любого целого k
удовлетворяющего условию: m
<= k
<= n
;Пример: мотив домена с сигнатурой C2H2-type цинкового пальца выглядит следующим образом: C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H
[47]
Позиционной весовой матрицей называется такая матрица, столбцы которой соответствуют позиции в последовательности, а строчки соответствуют буквам в алфавите. Значениями этой матрицы являются частоты (или монотонные функции от частот) встречаемости данной буквы в данной позиции на последовательности. При этом обычно, чтобы исключить нулевые частоты к числу встреч каждой буквы позиции добавляют некоторое число, исходя из априорного распределения букв в подобных последовательностях[4] (к примеру, вводят поправку Лапласа[48]). Данный подход, как и предыдущие, неявно предполагает, что позиции в мотиве независимы, чего на самом деле не наблюдается даже для нуклеотидных последовательностей[2][4].
Пусть у нас есть 7 последовательностей ДНК, представляющих собой мотив[9]:
Номер позиции | ||||||||
---|---|---|---|---|---|---|---|---|
Номер
последовательности |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
1 | A | T | C | C | A | G | C | T |
2 | G | G | G | C | A | A | C | T |
3 | A | T | G | G | A | T | C | T |
4 | A | A | G | C | A | A | C | C |
5 | T | T | G | G | A | A | C | T |
6 | A | T | G | C | C | A | T | T |
7 | A | T | G | G | C | A | C | T |
Позиционная матрица для них будет иметь следующий вид (+1
— учёт правила Лапласа)[9]:
Номер позиции | ||||||||
---|---|---|---|---|---|---|---|---|
Нуклеотид | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
A | 5 + 1 | 1 + 1 | 0 + 1 | 0 + 1 | 5 + 1 | 5 + 1 | 0 + 1 | 0 + 1 |
C | 1 + 1 | 0 + 1 | 1 + 1 | 4 + 1 | 2 + 1 | 0 + 1 | 6 + 1 | 1 + 1 |
G | 0 + 1 | 1 + 1 | 6 + 1 | 3 + 1 | 0 + 1 | 1 + 1 | 0 + 1 | 0 + 1 |
T | 1 + 1 | 5 + 1 | 0 + 1 | 0 + 1 | 0 + 1 | 1 + 1 | 1 + 1 | 6 + 1 |
Частоты можно пронормировать на общее число последовательность, тем самым получив оценку вероятности встречи данного нуклеотида в данной последовательности (собственно, обычно в таком представлении и хранится PWM)[2]:
Номер позиции | ||||||||
---|---|---|---|---|---|---|---|---|
Нуклеотид | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
A | 0,55 | 0,18 | 0,09 | 0,09 | 0,55 | 0,55 | 0,09 | 0,09 |
C | 0,18 | 0,09 | 0,18 | 0,45 | 0,27 | 0,09 | 0,64 | 0,18 |
G | 0,09 | 0,18 | 0,64 | 0,36 | 0,09 | 0,18 | 0,09 | 0,09 |
T | 0,18 | 0,55 | 0,09 | 0,09 | 0,09 | 0,18 | 0,18 | 0,64 |
Для большей точности можно учитывать зависимость соседних позиций в мотиве с помощью скрытых марковских моделей первого и более высоких порядков[2][4]. Этот подход сопряжён с некоторыми трудностями, так как для его применения необходимо наличие достаточно представительной выборки вариантов мотивов. В случае предыдущего примера имеем:
В случае мотивов, содержащих участки переменного размера и нуклеотидного состава, можно было бы вводить отдельно модель для этих участков, отдельно — для консервативных, а затем «склеивать» их в одну модель путём добавления промежуточных «молчащих» состояний и вероятностей перехода в них и из них[4].
В случае мотивов, формирующих вторичные структуры (РНК-переключатели) в РНК, в элементах вторичной структуры важно учитывать возможность спаривания нуклеотидов. С этой задачей справляются СКС. Однако обучение СКС требует ещё большего размера выборки, чем HMM, и сопряжено с рядом трудностей[4].
В тех случаях, когда важна скорость поиска и допустим пропуск некоторых вхождений нашего мотива, исследователи прибегают к различным уловкам, позволяющим с приемлемой точностью зашифровать пространственную структур биополимера (РНК или белка) путём расширения алфавита[49].
Оперон Escherichia coli репрессор лактозы LacI (PDB 1lcc chain A) и ген активатор катаболизма (PDB 3gap chain A) оба имеют мотив спираль-поворот-спираль, но их аминокислотные последовательности не очень схожи. Группой исследователей был разработан код, который они назвали «трёхмерный код цепи», представляющий структуру белка в виде строки из писем. Эта схема кодирования, по мнению авторов, показывает сходство между белками гораздо более отчётливо, чем аминокислотные последовательности[49]:
Пример: сравнение двух упомянутых выше белков при помощи этой схемы кодирования[49]:
PDB ID | 3D-code | Amino acid sequence |
---|---|---|
1lccA |
TWWWWWWWKCLKWWWWWWG |
LYDVAEYAGVSYQTVSRVV |
3gapA |
KWWWWWWGKCFKWWWWWWW |
RQEIGQIVGCSRETVGRIL |
Сравнение | Видно явное сходство между белками | По аминокислотной последовательности белки сильно отличаются |
где W
соответствует α-спирали, и E
и D
соответствует β-нити.
В данной работе с целью применения алгоритма поиска, схожего с BLAST, нуклеотидный алфавит (ATGC, так как поиск осуществлялся в геноме) был расширен за счёт комбинирования нуклеотидов и трех символов, характеризующих их предположительное направление спаривания[50]:
(
— нуклеотид спарен с нуклеотидом справа;)
— нуклеотид спарен с нуклеотидом слева;.
— нуклеотид не спарен.Таким образом получалось 12 букв нового алфавита (4 нуклеотида * 3 «направления»), при правильном использовании позволяющий осуществлять BLAST-подобный поиск, названный авторами foldedBlast[50].
Для визуального представления мотивов часто используют логотип последовательностей — графического представления консервативности каждой позиции в мотиве. При этом данную визуализацию можно успешно применять как и в случае представления мотива в виде консенсуса или позиционной весовой матрицы, так и для представления HMM модели последовательности, как это сделано в базе белковых семейств Pfam[51].
Кроме того, если использовать, к примеру, яркость каждой нуклеотида в мотиве как индикатор того, насколько часто ему соответствует в этом же мотиве комплементарный нуклеотид, то можно частично представлять и информацию о вторичной структуре мотива. Так сделано, например, в биоинформатическом веб-сервисе RegPredict[52].
В случае поиска в нуклеотидных последовательностях мотивов, отвечающих за связывание регуляторных белков пользуются соображением, что они [мотивы] меняются сравнительно медленно, а значит, если взять организмы, достаточно далёкие друг от друга, чтобы в высоковариабельных позициях их последовательностей успели накопиться мутации, а сайты измениться сильно ещё не успели, то можно пользоваться правилом «что консервативно — то важно»[2]. После получения последовательностей, в которых предполагается наличия специфичного мотива, в основном используют два подхода к поиску последовательности мотива — филогенетический футпринтинг и сведение задачи к задаче поиска вставленного мотива.
Филогенетический футпринтинг — полуавтоматический метод. Последовательности обрабатываются программой множественного выравнивания, и в получившемся выравнивании исследователем ищутся паттерны, которые можно считать мотивами. Одним из наиболее успешных примеров применения данного подхода можно считать расшифровку способа кодирования нерибосомных пептидов нерибосомными пептид-синтетазами (NRPS)[2][53][54]. Данный метод не позволяет полностью автоматизировать процесс поиска мотивов, но при этом и не имеет столь сильных ограничений, как следующие.
В случае с мотивами без (почти без) разрывов и без (почти без) участков переменной длины возможно свести задачу поиска мотива к задаче поиска вставленного мотива (англ. Planted motif search)[2][9].
Формулировка задачи следующая: «На вход предоставлены n строк s1, s2, …, sn длины m, каждая составленная из символов алфавита A, и два числа — l и d. Найдите все строки x длины l такие, что любая из предоставленных строки содержит хотя бы одну подпоследовательность, находящуюся от x на расстоянии Хэмминга не больше d»[55].
Так как в общем случае неизвестно, все ли полученные нами последовательности имеют искомый мотив, а также неизвестна его точная длина, то обычно задачу решают эвристическими методами — максимизируя вероятность найденного мотива при данных последовательностях. На этом принципе построены программы MEME[17] и GibbsSampler[56].
Если задать минимальный порог на число последовательностей, в которых должен содержаться мотив, и как-либо ограничить его длину, то можно использовать и точные способы решения данной задачи, к примеру — алгоритм RISOTTO[57]. Некоторые из них позволяют снимать часть ограничений на искомый мотив — в RISOTTO искомый мотив может иметь разрывы, состоять из нескольких частей.
Однако эти методы редко дают результаты лучше, чем MEME и GibbsSamler, а работают они значительно дольше[2][58].
Метод анализа ДНК-белковых взаимодействий, комбинирующий идеи иммунопреципитации хроматина (ChIP) и высокоэффективном секвенировании ДНК (белок пришивается к ДНК, затем кусочки ДНК, пришившиеся к белку отправляются на секвенирование). В ходе работы метода получаются участки длиной около 150 нуклеотидов, которые затем можно анализировать in silico на наличие мотива[59].
Как и в случае использования метода ChIP-seq проводится иммунопреципитации хроматина (ChIP), затем сшивка с белком обращается и полученная ДНК гибридизуется с ДНК-микрочипом. Метод ChIP-on-chip дешевле, чем ChIP-seq, однако сильно уступает последнему в точности[6].
Также метод, основанный на иммунопреципитации хроматина (ChIP). Использование экзонуклеазы фага λ, деградирующей ДНК только с 5'-конца и только в случае отсутствия контакта с белком, позволяет добиваться точности порядка нескольких нуклеотидов в определении положения сайта связывания белка[60].
Итеративный метод поиска нуклеотидных последовательностей, хорошо связывающихся с данным белком[61]. Процедура в общем случае выглядит так:
Делается гибридный белок из изучаемого белка и адениновой ДНК-метилтрансферазы Dam[62]. В естественных условиях аденин в большинстве эукариот не метилируется. Когда же гибридный белок связывается с каким-либо сайтом в ДНК организма, метилтрансферазная часть модифицирует аденины в районе этого сайта, что позволяет затем с помощью эндонуклеаз рестрикции выделить участок, на котором с большой долей вероятности находится искомый мотив.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.