Loading AI tools
Из Википедии, свободной энциклопедии
Pfam — база данных семейств белковых доменов. Каждое семейство в ней представлено множественным выравниванием фрагментов белковых последовательностей и скрытой марковской моделью (HMM). На март 2021 года в Pfam содержалось 19 179 записей (семейств), объединённых в 645 кланов[1].
Pfam | |
---|---|
Содержимое | |
Описание | База данных Pfam предоставляет выравнивания и скрытые модели Маркова для белковых доменов. |
Тип данных | Семейства белков |
Организмы | все |
Контакты | |
Исследовательский центр | EBI |
Оригинальная публикация | 19920124 |
Доступность | |
Формат данных | Stockholm format |
Сайт | ebi.ac.uk/interpro |
URL для загрузки | FTP |
Прочее | |
Лицензия | GNU Lesser General Public License |
Версия | 36.0 |
Возможность делать закладки в браузере | да |
База данных Pfam основана в 1997 году исследователями из Института Сенгера[2] и активно поддерживается консорциумом учёных из разных стран[3]. С 2011 года для записей с известной функциональной аннотацией существуют статьи в англоязычной Wikipedia[4]. На начало 2021, в 77 % последовательностей базы UniProt детектирован хотя бы один домен, описанный в Pfam, эти домены покрывают 53,2 % общей длины этих последовательностей[5].
В журнале «Nucleic Acids Research» периодически выходят статьи, описывающие развитие и состояние Pfam[6]. Текущая версия Pfam 34.0 построена по базе данных Pfamseq, основанной на релизе UniProtKB 2020_06[7]. Pfamseq содержит 57 млн аминокислотных последовательностей общей длиной 21,7 млрд аминокислотных остатков[8].
В Pfam существует две категории семейств белковых доменов: Pfam-A и Pfam-B. Домены не перекрываются — в базе данных нет таких белков, в которых хотя бы один аминокислотный остаток принадлежит одновременно к двум разным доменам. Некоторые семейства, имеющие общее эволюционное происхождение и сохранившие сходство на уровне последовательностей или структур, объединены в кланы. Коллекция кланов называется Pfam-C.
Pfam-A содержит семейства, которые курируются вручную. Для формирования каждого семейства Pfam-A строится исходное выравнивание (seed alignment) из его наиболее репрезентативных представителей. На его основе создается скрытая марковская модель (HMM), также именуемая профиль. Она состоит из состояний «сопоставление», «вставка» и «делеция» для каждой колонки множественного выравнивания с присвоенными эмиссионными вероятностями для всех аминокислот в первом из этих состояний[2]. Данные эмиссионные вероятности представлены для каждого семейства на его странице в виде sequence logo.
После этого осуществляется поиск с помощью полученной HMM по базе данных Pfamseq, соответствующей последнему релизу UniProtKB. Все последовательности, для которых рейтинг соответствия HMM превышает некоторый порог, вручную устанавливаемый для каждого семейства, включаются в полное выравнивание (full alignment). Если оказывается, что некоторые представители семейства не обнаруживаются при поиске с помощью HMM, исходное множественное выравнивание редактируется до достижения оптимального результата[2]. Полученные HMM сохраняются в базе данных Pfam и могут быть использованы для поиска доменов в новых белковых последовательностях через веб-интерфейс.
Описания семейств преимущественно содержатся в Wikipedia и открыты для публичного редактирования. Однако, необходимо заметить, что более четверти всех семейств не имеет функциональной аннотации, такие домены обозначаются как DUF[англ.] (англ. Domain of unknown function). Также для каждого семейства содержится информация о его представленности в различных таксонах, варианты доменной структуры содержащих его белков и филогенетическое дерево исходного выравнивания. В тех случаях, когда это возможно, присутствуют данные о белок-белковых взаимодействиях, полученные при помощи iPfam Архивная копия от 12 июня 2020 на Wayback Machine, и ссылки на трехмерные структуры в базе данных PDB.
В дополнение к курируемым вручную семействам, Pfam содержит семейства Pfam-B, генерируемые автоматически с использованием программы MMSeqs2. Они не имеют функциональной аннотации, и, как правило, имеют значительно худшее качество по сравнению с семействами Pfam-A. Некоторые из них представляют регионы низкой сложности и не отражают истинного родства белковых последовательностей, поэтому рекомендуется проверка гомологии представителей семейств Pfam-B с помощью других методов, например, BLAST. Выравнивания последовательностей белков для семейств Pfam-B не доступны через веб-интерфейс Pfam, но могут быть скачаны в виде архива.
Кланы (Pfam-C) — это объединения семейств белковых доменов, имеющих общее эволюционное происхождение. Для формирования кланов золотым стандартом служит сравнение трехмерных структур доменов, в их отсутствие также может использоваться заметное сходство профилей (которое может быть определено с помощью программы HHsearch) или сходство результатов поиска по базе данных с использованием различных профилей (определяемое программой SCOOP). Для кланов, также как и для семейств Pfam-A, предоставляется общее выравнивание всех его представителей, информация о распределении по таксонам, данные о белок-белковых взаимодействиях и ссылки на трехмерные структуры.
Запись Pfam — это набор сходных участков белковых последовательностей. Все записи относят к одному из шести типов[4]:
Зачастую термин family (семейство) используется, в том числе на сайте Pfam, вместо термина entry (запись), что создает значительную путаницу.
Сайт Pfam предоставляет интерактивный доступ к данным, а также возможность просматривать данные в графическом виде.
Окно «Jump to…», присутствующее на большинстве страниц Pfam, позволяет быстро провести поиск семейств или кланов по идентификатору (ID) или коду доступа (accession). В верхней части любой страницы Pfam имеется также окно поиска семейств по ключевому слову, «keyword search»[9].
Путём поиска последовательности белка по библиотеке HMM в Pfam можно выяснить его доменную архитектуру. Для многих известных белковых последовательностей она уже вычислена: чтобы просмотреть её, нужно ввести идентификатор или код доступа последовательности в окне вкладки «view a sequence» на главной странице сайта. Если же последовательность не распознается Pfam, можно воспользоваться страницей поиска, где нужно ввести аминокислотную или нуклеотидную последовательность[9].
Если требуется провести поиск большого количества последовательностей, на вкладке «Batch search» страницы поиска можно загрузить файл с последовательностями в формате FASTA, при этом в каждом файле должно быть не больше 5000 последовательностей. В этом случае пользователь получает результаты в течение 48 часов по e-mail адресу, который нужно также указать на странице поиска[9]. Также есть возможность провести поиск локально, с помощью скрипта «pfam_scan.pl». Для этого потребуется программное обеспечение HMMER3[англ.], библиотеки HMM и некоторые другие дополнительные файлы, которые можно найти на сайте Pfam[9].
В Pfam имеются вычисленные доменные архитектуры для протеомов базы Integr8[10]. Доступ к этим данным открыт в графе «Proteomes» на странице «Browse». Для представленных здесь организмов имеется информация о доменном составе и доменных архитектурах их белков.
Pfam также предоставляет возможность поиска белков по доменной архитектуре. Для этого на вкладке «Domain architecture» страницы поиска в специальном окне нужно выбрать домены, которые должны входить или не входить в целевой белок. Можно также использовать Java-апплет PfamAlyzer, обладающий более широкими возможностями[11].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.