Loading AI tools
蛋白質など生体高分子が持つ3次元構造の立体配座を蓄積している国際的データベース ウィキペディアから
蛋白質構造データバンク(たんぱくしつこうぞうデータバンク、PDB: Protein Data Bank)は、蛋白質(タンパク質)、核酸、糖鎖など生体高分子の3次元構造の原子座標(立体配座)を蓄積している国際的な公共のデータベースである。PDBに蓄積されている構造データは、結晶解析法、核磁気共鳴法(NMR法)、クライオ電子顕微鏡法の3つの検証可能な手法によって実験的に決定されたデータである。なお、理論的な予測(蛋白質構造予測)で推定されたデータは蓄積していない。
世界中の構造生物学者が決定した構造情報は、論文発表前にPDBに登録することが義務付けられており、論文発表と同時にPDBへ登録済みの構造データが一般公開される仕組みになっている。PDBの運営は日米欧の各拠点機関が国際的に協力することで成り立っており、南北アメリカとオセアニア地区で解析されたデータは米国で、欧州とアフリカ地区からのデータは欧州で、アジア・中東地区で解析されたデータは日本でデータ登録処理が行われる。日本の拠点活動は、大阪大学蛋白質研究所のProtein Data Bank Japan(PDBj)が担当している。PDBに登録されたデータは、事前に日米欧の各拠点間でデータ交換され、パブリックドメインのもとで完全に同一なデータとして一般公開される。
PDBは、生命科学研究の中心的なデータベースのひとつである。構造生物学をはじめとする基礎研究のみならず、創薬や食品工学、細胞工学などの応用分野でも欠かせない情報源となっている。バイオインフォマティクスの研究でも、PDBに代表される3次元分子構造データベースは重要な研究対象である。PDBから派生したデータベースとプロジェクトは非常に多く、蛋白質の構造・機能・進化のそれぞれの側面から、PDBの構造データの統合や分類が行われている。
BNL PDBとして
1971年に、アメリカ合衆国のブルックヘブン国立研究所(BNL)と英国のThe Cambridge Crystallographic Data Centre (CCDC)が共同でPDBを設立し、PDBへのデータ登録はブルックヘブン国立研究所が単独で行っていた。設立以来PDBデータの磁気テープによる公開はブルックヘブン国立研究所とCCDCにより行われていたが、1976年に東京大学大型計算機センターもこれに加わった。1979年からは磁気テープによる日本国内へのデータ配布活動は、大阪大学蛋白質研究所が担うことになった。
RCSB PDBとして
1998年に、米国プロジェクトとしてのPDBはブルックヘブン国立研究所から構造バイオインフォマティクス研究共同体 (RCSB; Research Collaboratory for Structural Bioinformatics) に移管され、同研究共同体 (RCSB) がPDBの登録業務を担当し、PDBのマスターファイル管理をすることになった。並行して欧州ではEMBL-EBIにMacromolecular Structure Databaseが立ち上がり、BNLと共同で開発されたAutodepシステムを用いたデータ登録が開始された。2000年には大阪大学蛋白質研究所でもRCSB PDBの協力により、アジア地区からのデータ登録受付を開始した。
wwPDBとして
2003年、日米欧の各拠点で別々にデータ登録が行わていたPDBの運営をより公式なものとし、世界同一の基準でデータ登録を行うことを目的として、RCSBを含む次の3つの研究組織によりWorldwide Protein Data Bank (wwPDB) が結成された。2006年には生体分子磁気共鳴データバンク(BMRB)もメンバーに加わり、現在は4つの組織が構成メンバーである。wwPDBは独自に運営諮問会議を毎年開催し、運営諮問委員からの意見に従ってPDBを運営している。wwPDBでは、統一した基準によるデータ登録が行われて完全に同一のデータを公開しているが、データの検索サービスやデータ配布方法には自由度があり、各拠点独自のサービスを提供している。
wwPDBの役割は、PDBの生体高分子の3次元構造を蓄積した単一のデータベースの保守と、PDBデータベースを世界中の研究者コミュニティに無償で公開し利用できるようにすることである。
PDBが設立された当初、データベースが含む蛋白質の3次元構造は7つであったが、その後、データベースに登録される構造データ数はほぼ指数関数的に急激に増え、この増加傾向が衰える兆しは無い。PDBのデータの増加ペースは、多くの人々により分析の対象となっている。
2008年1月22日現在の時点で、PDBのデータベースでは48555構造の分子の3次元構造のデータが公開されている。そのうち44742構造が蛋白質であり、他には核酸、蛋白質核酸複合体、その他の分子構造が、登録されている。ここ数年は、毎年約5000の新しい構造データが登録され公開されている。構造データは、mmCIFという分子構造データを記述するために開発された形式で、格納されている。
注意すべきこととしては、PDBは生体高分子を構成する各原子の厳密な配座の情報を格納しているということである(ただし水素以外の原子については、多くの場合は統計的に配座を推定している)。
例えば生体高分子のシーケンスデータ(特定の蛋白質を生成するための情報を記述したアミノ酸配列や、特定の核酸を構成するヌクレオチド配列)のみに関心がある場合は、Swiss-Protや国際塩基配列データベース (INSD; International Nucleotide Sequence Database; DDBJ/EMBL/GenBank) の、PDBよりさらに大規模な配列データベースを使うべきである。
2014年6月3日現在、RCSBのページでは、次の統計情報を公開している。
PDBの蛋白質データのうち、
注意: 蛋白質構造予測により理論的に推定されたモデルは統計に含まれていない(2002年7月2日より前までは含まれていた)。
PDBの統計情報のページは毎週更新されている。
PDBの3次元構造データのファイル形式は、頻繁な変更と改訂を経ている。もともとのファイル形式は、コンピュータのパンチカードの幅の制約に従っていた。
従来のファイル形式には多くの問題が伴うため、いくつかの「清掃」プロジェクトが行われている。
MMDBは、ASN.1形式を採用しており、またASN.1形式をXMLに変換した形式でも提供している。wwPDBは、先述したように、RCSB PDB、MSD-EBI、PDBj の3つの組織により構成されており、それぞれの組織のデータベースをまたがって一貫した形式でデータを提供している。
一定の人々は、こうした状況を肯定的に認識している。別の人々は、構造データを共通のデータベースで利用できなければ、生体高分子の構造に関する問題について研究者間の会話が成り立たないと、考えている。
PDBから提供される構造データには、それぞれ PDB ID という4文字のアルファベットからなる識別子が、割り当てられている。PDB ID は、生体高分子の識別子として使うことはできない。なぜなら、同じ一つの分子が環境/状況に応じて異なる複数の3次元構造をとるということが、蛋白質などの分子ではよくあるためである。その場合、一つの分子がそのとり得る構造ごとに、複数の PDB ID を割り当てられる。
wwPDBでは、生物学者により蛋白質や核酸の構造データが登録されると、wwPDBのスタッフがその構造データを検証し注釈(アノテーション)をつける。その後、データはソフトウェアにより妥当性を検証される。この妥当性検証ソフトウェアのソースコードは、無償で公開されている。先述したとおり、wwPDBでも、実験的に決定された構造データの登録のみを受け付け、蛋白質構造予測により理論的に推定された構造データは受け付けていない。
現在、さまざまな配分機関や自然科学系学術雑誌が、自分たちが関わって決定した構造データをPDBに登録する科学者を必要としている。
PDBの3次元構造データは、生体物質を視覚化するソフトウェアを使って見ることができる。このようなソフトウェアをいくつか示す。
構造バイオインフォマティクス研究共同体 (RCSB PDB) のウェブサイトではまた、教育や構造ゲノミクスに関するリソース、および関連するソフトウェアを、提供している。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.