Loading AI tools
ウィキペディアから
タンパク質立体構造分類データベース(タンパクしつりったいこうぞうデータベース、英: Structural Classification of Proteins (SCOP) database)は、タンパク質の構造ドメインを、その構造とアミノ酸配列の類似性に基づいて、主に手作業で分類したものである。この分類の動機は、タンパク質間の進化的関係を決定することである。同じ形状をしていても、配列や機能の類似性がほとんどないタンパク質は、異なるスーパーファミリーに分類され、非常に遠い共通の祖先を持っていると想定される。同じ形状で、配列や機能がある程度類似しているタンパク質は「ファミリー」に分類され、より近い共通の祖先を持っていると見なされる。
内容 | |
---|---|
説明 | タンパク質構造分類 |
コンタクト | |
研究拠点 | MRC分子生物学研究所 |
作者 | Alexey G. Murzin, Steven E. Brenner, Tim J. P. Hubbard, and Cyrus Chothia |
主要引用 | PMID 7723011 |
公開日 | 1994 |
アクセス | |
ウェブサイト | http://scop.mrc-lmb.cam.ac.uk/scop/ |
ツール | |
その他 | |
バージョン | 1.75 (June 2009; 110,800 domains in 38,221 structures classed as 3,902 families)[1] |
キュレーション ポリシー | 手作業 |
CATHデータベースやPfamデータベースと同様に、SCOPはタンパク質の個々の構造ドメインを分類するものであり、かなりの数の異なるドメインを含む可能性のあるタンパク質全体を分類するものではない。
SCOPデータベースは、インターネット上で自由にアクセスできる。SCOPは、1994年にイギリスのケンブリッジにあるタンパク質工学センターとMRC分子生物学研究所で作成された[3]。これは、2010年に閉鎖されるまではタンパク質工学センターのAlexey G. Murzin氏と彼の同僚によって維持され、その後は分子生物学研究所に引き継がれた[4][5][6][1]。
SCOPバージョン1.75の作業は、2014年に終了した。それ以降、カリフォルニア大学バークレー校のSCOPeチームは、自動化された方法と手動の方法を組み合わせて、互換性のある方法でデータベースを更新する責任を持っている。2019年4月時点で、最新リリースはSCOPe 2.07(2018年3月)である[2]。
2020年初頭、新たなデータベース「Structural Classification of Proteins version 2(SCOP2)」がリリースされた。新しいアップデートの特徴は、データベーススキーマの改善、新しいAPIの導入、最新のウェブインターフェイスである。これは、SCOPバージョン1.75以降のケンブリッジグループによる最も重要な更新であり、SCOP2プロトタイプからのスキーマの進歩に基づいている[7]。
・注意:この記述は(SCOP2でなく)SCOPバージョン1.75[8]に基づく。
タンパク質構造の情報源は、蛋白質構造データバンク(PDB)である。SCOPの構造分類の単位はタンパク質ドメインである。SCOPの著者が言う「ドメイン」とは、小規模のタンパク質と中規模のタンパク質のほとんどが1つのドメインしか持たないという彼らの記載や[9]、α2β2構造を持つヒトのヘモグロビンにはαサブユニットとβサブユニットの2つのSCOPドメインが割り当てられているという観察所見によって示唆される[10]。
ドメインの形状をSCOPでは「フォールド」と呼んでいる。同じフォールドに属するドメインは、同じ配置の同じ主要二次構造と、同じトポロジー接続を持っている。SCOPバージョン1.75では、1,195件のフォールドが与えられている。各フォールドの簡単な説明が記載されている。たとえば、「グロビン様」フォールドは、『コア: 6ヘリックス; 折りたたまれた葉、部分的に開いている』(core: 6 helices; folded leaf, partly opened)と説明されている。ドメインが属するフォールドは、ソフトウェアではなく、精査によって決定される。
SCOPバージョン1.75のレベルは次のとおりである。
SCOPバージョン1.75で最も広域のグループは、タンパク質フォールドクラスである。これらのクラスは、二次構造の構成が類似した構造をグループ化しているが、全体的な三次構造や進化上の起源は異なる。これは、SCOP階層分類の最上位の「ルート」(root)である。
ルート: scop クラス: 1. All-αタンパク質 [46456] (284) αヘリックスで構成されたドメイン 2. All-βタンパク質 [48724] (174) βシートで構成されたドメイン 3. αおよびβタンパク質 (a/b) [51349] (147) 主に平行βシート (β-α-βユニット) 4. αおよびβタンパク質 (a+b) [53931] (376) 主に逆平行βシート (分離されたαおよびβ領域) 5. マルチドメインタンパク質 (αおよびβ) [56572] (66) 異なるクラスに属する2つ以上のドメインからなるフォールド 6. 膜および細胞表面タンパク質およびペプチド [56835] (58) 免疫系のタンパク質を含まない 7. 小タンパク質 [56992] (90) 通常、金属リガンド、補因子、および/またはジスルフィド架橋が支配的 8. コイルドコイルタンパク質 [57942] (7) 真のクラスではない 9. 低解像度タンパク質構造 [58117] (26) 真のクラスではない 10. ペプチド [58231] (121) ペプチドおよびフラグメント。真のクラスではない 11. 設計されたタンパク質 [58788] (44) 本質的に非天然配列を持つタンパク質の実験的構造。真のクラスではない
角括弧内の数字は「sunid」(SCOP unique integer identifier)と呼ばれ、SCOP階層内における各ノードのSCOP固有の整数識別子である。丸括弧内の数字は、各カテゴリに含まれる要素の数を示している。たとえば「All-αタンパク質」クラスには284のフォールドがある。階層の各メンバーは、次の階層のレベルへのリンクとなっている。
それぞれのクラスには、いくつかの異なるフォールドが含まれている。この分類レベルは三次構造が類似していることを示しているが、必ずしも進化的関連性があるとは限らない。たとえば、「All-αタンパク質」クラスには、280以上の異なるフォールドが含まれている。そこには、『グロビン様(コア:6ヘリックス、折りたたまれた葉、一部が開いている)』、『長いαヘアピン(2ヘリックス、逆平行ヘアピン、左巻きねじれ)』、『タイプIドックリンドメイン(2つのカルシウム結合ループヘリックスモチーフの縦列反復、EFハンドとは異なる)』などが含まれる。
フォールド内のドメインは、さらにスーパーファミリーに分類される。これは、構造的類似性が進化的関連性を示すのに十分であり、したがって共通の祖先を共有するタンパク質の最大のグループである。しかし、スーパーファミリーの異なるメンバーは配列相同性が低いため、この祖先は遠く離れた存在であると推定される。たとえば、「グロビン様」フォールドの2つのスーパーファミリーは、『グロビンスーパーファミリー』と『αヘリックス・フェレドキシンスーパーファミリー(2つのFe4-S4クラスターを含む)』である。
タンパク質ファミリーは、スーパーファミリーよりも密接な関係がある。ドメインが次のいずれかを持つ場合、同じファミリーに分類される。
配列と構造の類似性は、これらのタンパク質が同じスーパーファミリーのタンパク質よりも進化的に近い関係にあることを示す証拠である。BLASTなどの配列ツールは、ドメインをスーパーファミリーやファミリーに分類するのを支援するために使用される。たとえば、「グロビン様」フォールド内の「グロビン様」スーパーファミリー内は、次の4つのファミリーが含まれる。すなわち『切断型ヘモグロビン(第1ヘリックスを欠く)』、『神経組織ミニヘモグロビン(第1ヘリックスを欠くが、それ以外は切断型よりも従来のグロビンに似ている)』、『グロビン(ヘム結合タンパク質)』、『フィコシアニン様フィコビリソームタンパク質(N末端に2つの余分なヘリックスを持つ2種類のグロビン様サブユニットのオリゴマーがビリン発色団と結合する)』である。SCOPに登録されているファミリーには、それぞれ sccs という簡潔な分類文字が割り当てられており、アルファベットはドメインが属するクラスを示し、続く整数はそれぞれフォールド、スーパーファミリー、ファミリーを識別する(例:「グロビン」ファミリーの場合はa.1.1.2)[11]。
「TaxId」は分類ID番号で、NCBI分類ブラウザにリンクしており、タンパク質が属する種についての詳細な情報を提供している。種またはアイソフォームをクリックすると、ドメインのリストが表示される。たとえば『ヘモグロビン, ヒトのα鎖』(Hemoglobin, alpha-chain from Human (Homo sapiens))というタンパク質には、2dn3(cmoとの複合体)や2dn1(hem, mbn, oxyとの複合体)など、190以上の解決済みのタンパク質構造がある。PDB番号をクリックすると、分子の構造が表示されるはずであるが、現在はリンクが切れている(SCOP以前はリンクが機能していた)。
・注意:この記述は(SCOP2でなく)SCOPバージョン1.75[8]に基づく。
ヒトのトリプシンの系統
SCOPのほとんどのページには検索ボックスがある。「trypsin +human」と入力すると、「ヒトのトリプシノーゲン」タンパク質を含む、いくつかのタンパク質が検索される。そのエントリーを選択すると、ほとんどのSCOPページの上部にある「系統」(Lineage)を含むページが表示される。
Protein: Trypsin(ogen) from Human (Homo sapiens) [TaxId: 9606] Lineage: 1. Root: scop 2. Class: All beta proteins [48724] 3. Fold: Trypsin-like serine proteases [50493] barrel, closed; n=6, S=8; greek-key duplication: consists of two domains of the same fold 4. Superfamily: Trypsin-like serine proteases [50494] link to SUPERFAMILY database - Superfamily 5. Family: Eukaryotic proteases [50514] 6. Protein: Trypsin(ogen) [50515] 7. Species: Human (Homo sapiens) [TaxId: 9606] [50519] PDB Entry Domains: 1. 1trn complexed with isp, po4 1. chain a [26000] 2. chain b [26001]
枯草菌由来のサブチリシン, カールスバーグ系統
「Subtilisin」で検索すると、「枯草菌由来のサブチリシン, カールスバーグ系統」のタンパク質が次の系統で返される。
Protein: Subtilisin from Bacillus subtilis, carlsberg [TaxId: 1423] Lineage: 1. Root: scop 2. Class: Alpha and beta proteins (a/b) [51349] Mainly parallel beta sheets (beta-alpha-beta units) 3. Fold: Subtilisin-like [52742] 3 layers: a/b/a, parallel beta-sheet of 7 strands, order 2314567; left-handed crossover connection between strands 2 & 3 4. Superfamily: Subtilisin-like [52743] link to SUPERFAMILY database - Superfamily 5. Family: Subtilases [52744] 6. Protein: Subtilisin [52745] 7. Species: Bacillus subtilis, carlsberg [TaxId: 1423] [52746] PDB Entry Domains: 1. 1r0r complexed with ca 1. chain e [96735] 後略
これらのタンパク質はどちらもプロテアーゼであるが、同じフォールドにさえ属しておらず、収斂進化の例であることに一致している。
SCOP分類は、主なライバルであるCATHの半自動分類と比較して、手作業による判断に依存している。人間の専門知識は、あるタンパク質が進化的に関連しているために同じスーパーファミリーに割り当てるべきなのか、それとも類似性は構造的な制約の結果であり、したがって同じフォールドに属するのかを判断するために使われる。もう一つのデータベースであるFSSPは、純粋に自動生成されていて(定期的な自動更新を含む)分類はされていないため、ユーザーは個々のタンパク質構造のペアワイズ比較に基づいて、構造的関係の重要性について自分で結論を出すことができる。
2009年までに、オリジナルのSCOPデータベースは38,000件のPDBエントリを手動で厳密な階層構造に分類した。タンパク質構造の報告が加速している中、分類の限定された自動化では追いつかず、包括的なデータセットに繋がらなかった。2012年にリリースされた拡張タンパク質構造分類(Structural Classification of Proteins extended、SCOPe)データベースは、同じ階層システムのはるかに優れた自動化を備えたもので、SCOPバージョン1.75と完全な後方下位互換性がある。2014年には、正確な構造の割り当てを維持するために、SCOPeに手動キュレーションが再導入された。2015年2月現在、SCOPe 2.05はPDBエントリー(合計110,000件)のうち71,000件を分類した[12]。
SCOP2プロトタイプは、タンパク質構造分類のベータ版で、タンパク質構造の進化に内在する進化的複雑性をより高めることを目的としている[13]。したがって、これは単純な階層構造ではなく、タンパク質スーパーファミリーを接続する有向非巡回グラフネットワークであり、循環置換、ドメイン融合、ドメイン崩壊などの構造的および進化的関係を表している。そのため、ドメインは厳密に固定された境界線で区切られるのではなく、最も類似した他の構造との関係によって定義される。このプロトタイプは、SCOPバージョン2データベースの開発に使用された[7]。2020年1月にリリースされたSCOPバージョン2には、SCOPバージョン1.75での3,902ファミリーと1,962スーパーファミリーと比較して、5,134ファミリーと2,485スーパーファミリーが含まれている。その分類レベルは、504,000以上のタンパク質構造を表す41,000以上の非冗長ドメインを編成している。
2014年に公開されたタンパク質ドメイン進化的分類データベース(Evolutionary Classification of Protein Domains、ECOD)データベースは、SCOPバージョン1.75のSCOPe拡張版に類似している。互換性のあるSCOPeとは異なり、「クラス - フォールド - スーパーファミリー - ファミリー」階層を「アーキテクチャ - X - ホモロジー - トポロジー - ファミリー」(architecture-X-homology-topology-family、A-XHTF)分類に変更し、最後のレベルは主にPfamによって定義され、また未分類の配列についてはHHsearchクラスタリングによって補完される[14]。ECODは、3つの後継システムの中で最も広くPDBを網羅している。つまり、すべてのPDB構造を網羅し、隔週で更新されている[15]。Pfamへの直接マッピングは、Pfamのキュレーターが「クラン」(clan)分類を補足するために、ホモロジーレベルのカテゴリーを使用する際に有用である[16]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.