Loading AI tools
Vikipedi'den, özgür ansiklopediden
Pfam, gizli Markov modelleri kullanılarak oluşturulan ek açıklamalarını ve çoklu dizi hizalamalarını içeren protein ailelerinin bir veritabanıdır.[1][2][3] Pfam'ın en son sürümü olan 37.0, Haziran 2024'te yayınlandı ve 21.979 aile içeriyor.[4] Şu anda InterPro web sitesi aracılığıyla sağlanmaktadır.
İçerik | |
---|---|
Açıklama | Pfam veritabanı, protein alanları için hizalamalar ve gizli Markov modelleri sağlar. |
Yakalanan veri türleri | Protein aileleri |
Organizmalar | tümü |
İletişim | |
Araştırma merkezi | EBI |
Birincil alıntı | PMID 19920124 |
Erişim | |
Veri formatı | Stockholm formatı |
İnternet sitesi | ebi.ac.uk/interpro/entry/pfam/ |
İndirme bağlantısı | FTP |
Diğer | |
Lisans | GNU Kısıtlı Genel Kamu Lisansı |
Sürüm | 37.0 |
Yer imi konulabilir varlıklar | evet |
Pfam veritabanının genel amacı, protein ailelerinin ve alanlarının eksiksiz ve doğru bir sınıflandırmasını sağlamaktır.[5] Başlangıçta, veritabanının oluşturulmasının ardındaki mantık, genomların açıklanmasının verimliliğini artırmak için bilinen protein aileleri hakkında bilgi toplamak için yarı otomatik bir yönteme sahip olmaktı.[6] Protein ailelerinin Pfam sınıflandırması, proteinlerin geniş kapsamı ve mantıklı adlandırma kuralları nedeniyle biyologlar tarafından yaygın olarak benimsenmiştir.[7]
Belirli proteinleri araştıran deneysel biyologlar tarafından, yapı belirleme için yeni hedefleri tanımlamak üzere yapısal biyologlar tarafından, dizileri düzenlemek için hesaplamalı biyologlar tarafından ve proteinlerin kökenlerini izleyen evrimsel biyologlar tarafından kullanılır.[8] İnsan ve sinek gibi ilk genom projeleri, genomik verilerin işlevsel ek açıklamaları için Pfam'ı kapsamlı bir şekilde kullanmıştır.[9][10][11]
InterPro web sitesi, kullanıcıların Pfam veritabanındaki ailelerle eşleşmeleri aramak için protein veya DNA dizileri göndermelerine olanak tanır. DNA gönderilirse, altı çerçeveli bir translasyon yapılır, ardından her çerçeve aranır.[12] Pfam, tipik bir BLAST araması yapmak yerine, korunmuş bölgelerdeki eşleşmelere daha fazla ağırlık veren, daha iyi uzaktan homoloji tespitine izin veren profil gizli Markov modellerini kullanır ve bu da onları iyi notlandırılmış yakın akrabaları olmayan organizmaların genomlarını açıklamak için daha uygun hale getirir.[13]
Pfam, yapı veritabanlarındaki bilgilere ve Pfam alanlarının bu yapılarla eşleştirilmesine dayanarak proteinlerin içindeki ve arasındaki alan-alan etkileşimlerini kataloglayan iPfam gibi diğer kaynakların oluşturulmasında da kullanılmıştır.[14]
Pfam'daki her aile için bir tane olabilir:
Girişler çeşitli türlerde olabilir: aile, alan, tekrar veya motif. Aile, basitçe üyelerin ilişkili olduğunu gösteren varsayılan sınıftır. Etki alanları, birden fazla protein bağlamında bulunabilen özerk bir yapısal birim veya yeniden kullanılabilir sekans birimi olarak tanımlanır. Tekrarlar genellikle izolasyonda kararlı değildir, bunun yerine genellikle bir alan veya genişletilmiş yapı oluşturmak için tandem tekrarlar oluşturmak için gereklidir. Motifler genellikle globüler alanların dışında bulunan daha kısa dizi birimleridir.[9]
Pfam ailelerinin açıklamaları Vikipedi kullanılarak genel halk tarafından yönetilmektedir (bkz. #Topluluk küratörlüğü).
Sürüm 29.0 itibarıyla, UniprotKB'deki protein dizilerinin %76,1'i en az bir Pfam alanıyla eşleşmiştir.[15]
Yeni aileler, başta PDB ve Pfam isabeti olmayan genleri bulmak için eksiksiz proteomların analizi olmak üzere bir dizi kaynaktan gelmektedir.[16]
Her aile için, dizilerin temsili bir alt kümesi yüksek kaliteli bir tohum hizalamasına hizalanır. Tohum hizalaması için diziler öncelikle UniprotKB'den bir miktar takviye ile pfamseq'ten (referans proteomların yedekli olmayan bir veritabanı) alınır.[15] Bu tohum hizalaması daha sonra HMMER kullanılarak bir profil gizli Markov modeli oluşturmak için kullanılır. Bu HMM daha sonra dizi veritabanlarına karşı aranır ve küratörlü bir toplama eşiğine ulaşan tüm isabetler protein ailesinin üyeleri olarak sınıflandırılır. Ortaya çıkan üye koleksiyonu daha sonra tam bir hizalama oluşturmak için profil HMM ile hizalanır.
Her aile için, yanlış pozitif eşleşmeleri hariç tutarken aileyle doğru eşleşme sayısını en üst düzeye çıkaran manuel olarak küratörlü bir toplama eşiği atanır. Yanlış pozitifler, aynı klandan olmayan Pfam ailesi isabetleri arasındaki örtüşmeler gözlemlenerek tahmin edilir. Bu eşik, bir aile HMM'si ile eşleşmenin protein ailesine dahil edilip edilmeyeceğini değerlendirmek için kullanılır. Pfam'ın her güncellemesinde, yeni ve mevcut aileler arasındaki çakışmaları önlemek için toplama eşikleri yeniden değerlendirilir.[16]
İşlevi bilinmeyen alanlar (DUF'lar) Pfam veritabanının giderek büyüyen bir bölümünü temsil etmektedir. Bu aileler, türler arasında korundukları ancak bilinmeyen bir rol oynadıkları tespit edildiği için bu şekilde adlandırılmıştır. Yeni eklenen her DUF, eklenme sırasına göre adlandırılır. Bu girdilerin isimleri, işlevleri belirlendikçe güncellenir. Normalde, bir DUF'a ait en az bir proteinin işlevi belirlendiğinde, tüm DUF'un işlevi güncellenir ve aile yeniden adlandırılır. Bazı adlandırılmış aileler hala işlevi bilinmeyen alanlardır ve YbbR gibi temsili bir proteinden sonra adlandırılırlar. İşlevi bilinmeyen korunmuş diziler sekans verilerinde tanımlanmaya devam ettikçe DUF'ların sayısının artmaya devam etmesi beklenmektedir. DUF'ların sonunda işlevi bilinen ailelerin sayısından fazla olması beklenmektedir.[16]
Zaman içinde hem dizi hem de kalıntı kapsamı artmış ve aileler büyüdükçe, ailelerin klanlar halinde gruplandırılmasına izin veren daha fazla evrimsel ilişki keşfedilmiştir.[8] Klanlar ilk olarak 2005 yılında Pfam veritabanına tanıtılmıştır. Bunlar, yapısal, işlevsel, sekans ve HMM karşılaştırmalarıyla doğrulandığı gibi, tek bir evrimsel kökeni paylaşan ilgili ailelerin gruplandırılmasıdır.[5] Sürüm 29.0 itibarıyla, protein ailelerinin yaklaşık üçte biri bir klana aitti.[15] Bu oran 2019 itibariyle yaklaşık dörtte üçe çıkmıştır (sürüm 32.0).[17]
Olası klan ilişkilerini belirlemek için Pfam küratörleri, Çıktıların Basit Karşılaştırma Programını (SCOOP) ve ECOD veritabanındaki bilgileri kullanır.[17] ECOD, Pfam girişleriyle kolayca eşleşen aileler ve genellikle Pfam klanlarıyla eşleşen homoloji seviyeleri ile bilinen yapılara sahip protein ailelerinin yarı otomatik hiyerarşik bir veritabanıdır.[18]
Pfam 1995 yılında Erik Sonnhammer, Sean Eddy ve Richard Durbin tarafından, çok hücreli hayvanların protein kodlayan genlerini açıklamak için kullanılabilecek yaygın olarak oluşan protein alanlarının bir koleksiyonu olarak kurulmuştur.[6] Başlangıçtaki en önemli amaçlarından biri C. elegans genomunun açıklanmasına yardımcı olmaktı.[6] Proje kısmen Cyrus Chothia'nın 'One thousand families for the molecular biologist' adlı kitabında yaklaşık 1500 farklı protein ailesi olduğu ve proteinlerin çoğunun bunlardan sadece 1000'ine girdiği iddiasıyla yönlendirildi.[5][19] Bu iddianın aksine, Pfam veritabanı şu anda benzersiz protein alanlarına ve ailelerine karşılık gelen 16.306 giriş içermektedir. Bununla birlikte, bu ailelerin çoğu, ortak bir evrimsel kökene işaret eden yapısal ve işlevsel benzerlikler içermektedir (bkz. Klanlar).[5]
Başlangıçta Pfam ve diğer veritabanları arasındaki önemli bir fark noktası, girişler için iki hizalama türünün kullanılmasıydı: daha küçük, manuel olarak kontrol edilen bir tohum hizalaması ve dizileri tohum hizalamasından oluşturulan bir profil gizli Markov modeline hizalayarak oluşturulan tam bir hizalama. Bu daha küçük tohum hizalamasının, dizi veritabanlarının yeni sürümleri çıktıkça güncellenmesi daha kolaydı ve bu nedenle, genom dizilimi daha verimli hale geldikçe ve zaman içinde daha fazla verinin işlenmesi gerektiğinde veritabanının nasıl güncel tutulacağı ikilemine umut verici bir çözüm sundu. Veritabanının güncellenme hızındaki bir başka gelişme, HMMER2'den ~100 kat daha hızlı ve daha hassas olan HMMER3'ün tanıtılmasıyla 24.0 sürümünde geldi.[8]
Pfam-A'daki girişler bilinen tüm proteinleri kapsamadığından, Pfam-B adı verilen otomatik olarak oluşturulmuş bir ek sağlanmıştır. Pfam-B, ADDA adı verilen bir algoritma tarafından üretilen kümelerden türetilen çok sayıda küçük aile içeriyordu.[20] Daha düşük kalitede olmasına rağmen, Pfam-A aileleri bulunamadığında Pfam-B aileleri yararlı olabilirdi. Pfam-B, 28.0 sürümünden itibaren durdurulmuş,[21] daha sonra yeni bir kümeleme algoritması olan MMSeqs2 kullanılarak 33.1 sürümünde yeniden kullanıma sunulmuştur.[22]
Pfam başlangıçta yedekliliği korumak için dünya çapında üç ayna sitede barındırılıyordu. Ancak 2012 ve 2014 yılları arasında Pfam kaynağı EMBL-EBI'ye taşındı ve bu da web sitesinin tek bir alandan (xfam.org), iki bağımsız veri merkezi kullanılarak barındırılmasına olanak sağladı. Bu, güncellemelerin daha iyi merkezileştirilmesine ve Rfam, TreeFam, iPfam ve diğerleri gibi diğer Xfam projeleriyle gruplandırmaya izin verirken, birden fazla merkezden barındırmanın sağladığı kritik esnekliği korudu.[23]
Yaklaşık 2014'ten 2016'ya kadar Pfam, küratörlükle ilgili manuel çabayı daha da azaltmak ve daha sık güncellemelere izin vermek için önemli bir yeniden yapılanma geçirdi.[15] 2022 civarında Pfam, Avrupa Biyoenformatik Enstitüsündeki InterPro'ya entegre edildi.[24]
Bu kadar büyük bir veritabanının düzenlenmesi, yeni ailelerin ve eklenmesi gereken güncellenmiş bilgilerin hacmine ayak uydurma açısından sorunlar ortaya çıkardı. Veritabanının yayınlanmasını hızlandırmak için geliştiriciler, veritabanının yönetiminde daha fazla topluluk katılımına izin vermek için bir dizi girişim başlattılar.
Girişlerin güncellenme ve iyileştirilme hızını artırmada kritik bir adım, 26.0 sürümünde Pfam alanlarının işlevsel açıklamasını Vikipedi topluluğuna açmaktı.[16] Halihazırda bir Vikipedi girişi olan girdiler için bu Pfam sayfasına bağlandı ve olmayanlar için topluluk bir tane oluşturmaya ve bağlanması için küratörleri bilgilendirmeye davet edildi. Topluluk katılımının bu ailelerin açıklama düzeyini büyük ölçüde geliştireceği, ancak bazılarının Vikipedi'ye dahil edilmek için yeterince kayda değer olmayacağı ve bu durumda orijinal Pfam açıklamalarını koruyacakları beklenmektedir. Çinko parmak maddesi gibi bazı Vikipedi maddeleri birden fazla aileyi kapsamaktadır. InterPro ve Pfam verilerine dayalı makaleler oluşturmak için otomatik bir prosedür de uygulanmıştır; bu prosedür, bir sayfayı bilgi ve veritabanlarına bağlantıların yanı sıra mevcut resimlerle doldurur, ardından bir makale bir küratör tarafından incelendikten sonra Sandbox'tan Vikipedi'ye taşınır. Maddelerin vandalizmine karşı koruma sağlamak amacıyla, her Vikipedi revizyonu Pfam web sitesinde gösterilmeden önce küratörler tarafından gözden geçirilir. Ancak neredeyse tüm vandalizm vakaları, küratörlere ulaşmadan önce topluluk tarafından düzeltilmiştir.[16]
Pfam üç gruptan oluşan uluslararası bir konsorsiyum tarafından yönetilmektedir. Pfam'ın önceki sürümlerinde, aile girişleri yalnızca Cambridge, İngiltere sitesinde değiştirilebiliyordu ve bu da konsorsiyum üyelerinin site küratörlüğüne katkıda bulunma yeteneğini sınırlıyordu. 26.0 sürümünde, geliştiriciler dünyanın herhangi bir yerindeki kayıtlı kullanıcıların Pfam ailelerini eklemelerine veya değiştirmelerine izin veren yeni bir sisteme geçtiler.[16]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.