Loading AI tools
生命科学と情報科学の融合分野 ウィキペディアから
バイオインフォマティクス(英語: bioinformatics)とは、生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico 解析)ことを目的とした学問分野である。そのためバイオインフォマティクスは広義には、生物学、コンピュータサイエンス、情報工学、数学、統計学といった様々な学問分野が組み合わさった学際分野自体を指す。日本語では生命情報科学や生物情報学、情報生命科学などと表記される。
ゲノミクス研究の初期においては、遺伝子予測等のゲノミクスに関する分野がバイオインフォマティクスの主要な対象であった。近年ではゲノムを超えて、ゲノムからの転写物の総体であるトランスクリプトームや、トランスクリプトーム(の一部)が翻訳されたタンパク質の総体であるプロテオーム、タンパク質の二次産物として合成される糖鎖の総体であるグライコーム、更にはゲノムからの直接的に転写・翻訳された実体だけではなく、代謝ネットワーク(代謝マップ)によって生じた代謝産物をも含めた総体を考えるメタボローム、生物個体の表現形の総体であるフェノームなど、バイオインフォマティクスが対象とする研究分野は生物学全体に拡大・発展しつつある。
バイオインフォマティクスの主な研究対象としては、遺伝子予測、遺伝子機能予測、遺伝子分類、配列アラインメント、ゲノムアセンブリ、タンパク質構造アラインメント、タンパク質構造予測、遺伝子発現解析、タンパク質間相互作用の予測、進化モデリング、ドラッグデザイン、創薬、等の、様々なコンピュータープログラミングを使用した各種の生物学研究分野が挙げられる。また、特にゲノミクスの分野で繰り返し使用されるような特定の解析パイプラインを開発するといった、方法論の開発に関する研究も含まれる。バイオインフォマティクスを活用した研究の一例として、疾患の遺伝的根拠や生物の環境適応、(特に農業分野における)植物や動物の特性解析、個体群間の差異などをよりよく理解するための候補遺伝子や一塩基多型(SNP)の探索、などがある。 さらに、プロテオミクスと呼ばれるタンパク質を対象としたデータをゲノム配列と組み合わせたバイオインフォマティクス研究も進められている[1]。
今日、バイオインフォマティクスは、生物学の多くの分野で重要な役割を果たしている。例えば分子生物学研究では、画像処理や信号処理などのバイオインフォマティクス技術を利用して、大量の生データから有用な結果を抽出することが行われている。遺伝学の分野では、ゲノム配列や突然変異した配列の決定と注釈付け(アノテーション)に活用される。 生物学的文献のテキストマイニングや、生物学的な遺伝子オントロジーの開発を通じて、膨大に蓄積された生物学的データを利用しやすい形で整理する役割も果たしている。また、遺伝子やタンパク質の発現調節の解析にも、深く関与している。バイオインフォマティクスツールは、遺伝子やゲノムのデータ比較と分析、解釈を支援し、分子生物学の進化的な理解にも貢献している。より統合的なレベルでは、個々の遺伝子やタンパク質の解析から一歩進み、生命を遺伝子やタンパク質のネットワークとして捉え、その総体をシステムとして理解しようとする、システム生物学という分野も生まれている。バイオインフォマティクスは生物学的代謝経路とネットワークの分析やカタログ化に役立ち、システム生物学を支えている。構造生物学の分野においては、生体分子の相互作用だけでなく、DNA[2]、RNA[2][3]、タンパク質[4] 等のシミュレーションとモデリングにも役立っている[5][6][7][8]。
バイオインフォマティクスという用語は、Paulien HogewegとBen Hesperによって、1970年に生物システムの情報処理の研究に言及するために作られた用語である[9][10][11]。この定義では、生化学(生物学的システムにおける化学プロセスの研究)と平行した研究分野の概念としてバイオインフォマティクスを位置づけており[9]、今日使われているものとは意味が異なっている。
1950年代初頭にフレデリック・サンガーがインスリンの配列を最初に決定して以来、タンパク質のアミノ酸配列を研究で利用することが可能になった。しかしながら、複数のシーケンスを手動で比較することは(過去は実際に行われていたが)実用的ではなく、コンピューターを用いた解析が分子生物学にも必要不可欠になった。この分野の先駆者はマーガレット・オークリーデイホフ(Margaret Belle Oakley Dayhoff)である[12]。彼女は最初に、書籍の出版物[13] としてとして公開された最初のタンパク質配列データベースの1つを編集し、配列整列と分子進化の先駆的な方法を開発した[14]。バイオインフォマティクスへのもう一つの初期の貢献は、1970年にエルウィン・A・カバット(Elvin A. Kabat) が抗体配列を包括的なボリュームで解析し、生物学的な配列解析の分野を開拓したことである。この一連の研究はTai Te Wuと共に1980年から1991年にかけて発表された[15]。
生物学におけるバイオインフォマティクスの主な目的は、他の生物学派生分野と同様に、生物学的プロセスの理解をより深めることにある。ただし、他のアプローチとの違いは、より計算集約的な手法の開発と適用に重点を置いている点である。用いられる技術の例としては、パターン認識、データマイニング、機械学習アルゴリズム、などが挙げられる。また、例えば疾患研究の分野において、正常な細胞活動がさまざまな病状でどのように変化するかを明らかにするためには、生物学的データを組み合わせて、これらの活動の包括的な構造を理解する必要がある。そのため、さまざまなタイプのデータを組み合わせた分析と解釈を行えるように、バイオインフォマティクスの分野は進化してきた。これには、塩基およびアミノ酸配列の他、タンパク質ドメインやタンパク質構造が含まれる[16]。
データを分析および解釈する実際のプロセスは、計算生物学と呼ばれる。バイオインフォマティクスおよび計算生物学の重要な研究目標の一つに、大規模なデータセットにおいてメンバー間の関係を評価する新しいアルゴリズムと統計的尺度の開発がある。例えば、ゲノム配列内から遺伝子領域を予測したり、タンパク質の構造や機能を予測したり、タンパク質配列を関連配列のファミリーにクラスター化する方法など、に関する研究が進められている。また、さまざまな種類の生物学的情報リソースを整理し、管理し、効率的なアクセスと利用を可能にするコンピュータプログラムやシステムの開発と実装も、また重要な課題である。
バイオインフォマティクスは生物計算機学(biological computation)と一見似ているが、これは異なる科学分野である。生物計算機学は生物工学と生物学を使用して生物学的なコンピュータを設計することが主眼であるが、バイオインフォマティクスは逆にコンピュータを用いた計算を使用して生物学をよりよく理解することが主眼である。バイオインフォマティクスと生物計算機学の分野には共に、生物学的データ、特にDNA、RNA、タンパク質配列の分析が含まれる。
種内や種間で遺伝子配列を比較することで、タンパク質機能間の類似性を評価したり、あるいは系統樹を構築することで種間の分子系統学的関係を示すことができる。 データ量の増加に伴い、DNA配列を手作業で分析することはすでに非現実的である。今日ではBLASTなどの相同性検索を行うコンピュータプログラムを用いて、例えばGenBankに登録された1600億以上のヌクレオチドを含む260,000を超える生物から配列を検索することが日常的に行われている(数字は2008年のもの)[17]。これらのプログラムは、DNAシーケンスの変異(塩基の置換、欠失、挿入など)を補正して、類似するが同一ではない配列を検索できる。検索結果は、クローニングした遺伝子の部分情報から遺伝子全体の配列を予測したり、構造が未知のタンパク質の二次構造を予測したり、解読されたゲノムの中から遺伝子を検出してその機能を予測するなどの研究の基盤となる。
DNAシーケンサーから出力される生データには多量のノイズや弱信号が含まれており、下流の解析に悪影響を与える可能性がある。さまざまな実験プロトコルや環境におけるDNAシーケンシングデータからの塩基決定(ベースコール)を行うアルゴリズムが開発されている。
多くのDNAシーケンス技術は、短い配列フラグメントを生成する。そのため、完全な遺伝子や全ゲノム配列を取得するためには、この配列フラグメントをアセンブルして再構築する必要がある。ヒトゲノム計画では、ある配列断片から順番に配列を解読する手法が考えられていたが、クレイグ・ベンターらによるショットガン法により遥かに高効率で解読が進められるようになった。いわゆるショットガンシーケンステクニック(たとえば、Institute for Genomic Research (TIGR)による最初の細菌ゲノムHaemophilus influenzaeのゲノム決定でも使用された[18])は、ゲノム配列をバラバラな短い断片に分断してそれぞれを解読し(シーケンシング技術に応じて、35〜900ヌクレオチド長)、その後同一の配列を重複する領域として並べ替えることによってゲノム配列を再現する。これらのフラグメントの両端は重なり合っており、ゲノムアセンブリプログラムによって適切に整列されることで、完全なゲノムを再構築することができる(配列アセンブリング)。しかしながら、多くの断片がある中で正しい並び方を決定することはコンピュータの計算能力がなければ不可能である。そして、このフラグメントをアセンブルするタスクは、特に大きなゲノムにおいては非常に複雑になる可能性がある。例えばヒトゲノムは約3Gbのサイズがあるが、この程度のゲノムの場合、大容量メモリのマルチプロセッサコンピューターであってもショットガン配列をアセンブリするのには何日ものCPU時間を要する場合があり、また結果として生じるアセンブリには通常、多数のギャップが残っている。しかしながら、ショットガンシーケンスは事実上、あらゆる生物種の全ゲノムを決定する上で現実的に最適な方法となっている。そのため、高速・高性能なゲノムアセンブリアルゴリズムを開発することは、バイオインフォマティクスの重要な研究領域の一つとなっている。
ゲノミクスの文脈においてアノテーションとは、DNA配列内の遺伝子領域やその機能、そしてその他の生物学的特徴をマークするプロセスである。ほとんどのゲノムは大きすぎるため、手動で注釈を付けることができない。そのため、このプロセスは自動化する必要がある。さらに次世代シーケンシング技術の登場によって大量のデータが高速に得られるようになっており、大量のゲノムに対して高速にアノテーションを付けたいという研究上の要望は高まっている。
包括的なゲノムアノテーションシステムは、自由生活生物である細菌Haemophilus influenzaeのゲノムの最初の完全な配列決定と分析を行ったThe Institute for Genomic Researchのチームによって、1995年に初めて報告された[18]。Owen Whiteは、タンパク質をコードするすべての遺伝子とtRNA、rRNA、およびその他のサイトを特定し、またその生物学的機能を推定する初期のソフトウェアシステムを構築した[18]。 現在でも、ほとんどのゲノムアノテーションシステムは当時と同様な機能を持っているが、例えばHaemophilus influenzaeでタンパク質をコードする遺伝子を見つけるために使用されたGeneMarkプログラムなどのように、ゲノムDNAの分析に利用される個々のプログラムの多くは常に更新されており、機能改善の模索が続けられている。
ヒトゲノムプロジェクトが2003年に完了したが、残された様々な課題や新たな目標の達成のために、アメリカ国立衛生研究所内の国立ヒトゲノム研究所によって新たにENCODEプロジェクトが発足した。
進化生物学とは、種の起源と分化、そして系統の経時的な変化を明らかにする学問分野である。バイオインフォマティクスは進化生物学分野においても重要な役割を果たしている。より複雑な課題としては、生命の木を再構築する研究も進められている。
比較ゲノム解析の目的の一つは、異なる生物における遺伝子(オルソログ遺伝子)や他のゲノム上の特徴の対応関係を明らかにすることである。また例えば、2つのゲノムが系統上で分岐した際の進化過程は、両ゲノム間の対応関係を取ることで、例えばどのゲノム領域が欠失したり重複したのかを明らかにし、進化過程を追跡することができる。 現実的には、様々な組織レベルで作用する多数の進化イベントが組み合わさって、ゲノム進化が形作られる。最も最小レベルでの変化は、個々のヌクレオチドが影響してくる点変異である。一方でより高いレベルでは、大きな染色体セグメントが複製、移動、逆位、転位、欠失、および挿入を受けることがある[20]。最も大きなレベルでは、ゲノム全体のハイブリダイゼーションや倍数化、そして細胞内共生過程といったイベントに関与し、しばしば急速な種分化を引き起こす。このようなゲノム進化の複雑さは、数学モデルやアルゴリズム開発を行う上でもチャレンジングな課題となっている。そのため、正確なヒューリスティックやパラメーター固定、節約モデルに基づく問題の近似アルゴリズムや、確率モデルに基づくベイズ分析のためのマルコフチェーンモンテカルロアルゴリズムの利用に至るまで、アルゴリズム、統計、および数学的な様々な手法の利用が研究されている。これらの研究の多くにおいては、事前に遺伝子配列を配列相同性に基づいてタンパク質ファミリーに割り当てている[21]。
環境中には多様で大量の原核微生物系統が生息しており、その生理生態を理解することは、地球上の物質循環やその環境における生態系を理解する上で重要である。そのためには、どのような生理学的機能を持つ微生物が、どのような割合でそこに存在するのか、を理解することが必要である。メタゲノム解析は、環境中に存在する細菌叢サンプルからゲノムDNAを直接回収し、主にショットガンシーケンスを行ってバイオインフォマティクス解析を行うことで、それらに関して解析する、微生物学・ウイルス学の研究分野である[22]。
パンゲノム解析(Pac Genomics)は2005年にTettelinとMediniによって導入された概念であり、特定の分類群において保持されている遺伝子の網羅的な遺伝子レパートリーを表す。最初は種レベルの近縁系統に適用されましたが、属や門といったより大きな分類群にも適用できる。パンゲノムはコアゲノムとフレキシブルゲノムの2つの群から構成されている。コアゲノムは全ゲノムに共通した遺伝子セットを指し、多くの場合、これらの遺伝子は生存に不可欠なハウスキーピング遺伝子である。一方でフレキシブルゲノム(Dispensable / Flexible Genome)は、1つ以上のゲノムにおいて存在しない一連の遺伝子を指す。例えばバイオインフォマティクスツールであるBPGAを使用して、細菌種のパンゲノムを特徴付けることができる[23]。
次世代シーケンシングの登場により、不妊症[24] や乳がん[25]、アルツハイマー病といった複雑な遺伝性疾患の関連遺伝子をマッピングする研究が進められている[26]。ゲノムワイド関連研究(GWAS)は、このような複雑な疾患の原因となる変異を特定するための有用なアプローチである[27]。これらの研究により、類似の疾患や形質に関連する何千ものDNA変異体が特定されている[28]。さらに、遺伝子情報を予後の推定や診断、治療方針の決定に利用するための研究も進められている。そのために、使用する遺伝子を選択する手法や、疾患の存在または予後を予測するために遺伝子を使用することの問題点の両方について、多くの研究において議論がすすめられている[29]。
悪性腫瘍(癌)においては、癌細胞のゲノムは非常に複雑(予測不可能)な形で組み換えが起きることが知られている。大規模なシーケンシング研究により、癌細胞に見られるさまざまな遺伝子上の点突然変異の特定が進められてきた。このような研究においては、膨大な量の配列データを管理するための専用の自動化システムや新しいアルゴリズムとソフトウェアの作成を通じて、シーケンシングの結果をヒトゲノム配列や生殖系列多型のコレクションと比較するバイオインフォマティクス解析が進められている。また、染色体の増減を比較するオリゴヌクレオチドマイクロアレイ( 比較ゲノムハイブリダイゼーション)や、既知の点変異を検出する一塩基多型アレイなど、新しい物理的検出技術が採用されています。 これらの検出方法は、ゲノム全体で数十万のサイトを同時に測定することができ、ハイスループットで数千のサンプルを測定する場合、実験ごとに数テラバイトものデータを生成する。そのため、この膨大なデータ量を処理するための新しい手法に関する研究も進められている。また、データにはかなりの変動性またはノイズが含まれているため、実際のコピー数の変化を推測するために、隠れマルコフモデルに基づく変化点分析法が開発されている。また、エクソソームの突然変異の同定では、癌は遺伝子に蓄積された体細胞変異の疾患であり、がんには疾患発症に関係する(ドライバー)変異と無関係な(パッセンジャー)変異の区別される2種類が含まれている、という2つの重要な原則があり、生物情報学的解析を行う上でも重要になっている[30]。
シーケンシング技術のさらなる進歩により、癌のゲノミクスは劇的に変化する可能性がある。新しい方法とソフトウェアにより、より多くの癌ゲノムをより迅速かつ手頃な価格でシーケンスできるようになれば、がんによるゲノム内変異の分析とがんの種類の分類がさらに発展する可能性がある。さらに、癌サンプルのシーケンスからがんの進行状況を追跡できるようになる可能性も指摘されている[31]。
多くの場合、遺伝子の発現はマイクロアレイ、発現cDNAシーケンスタグ(expressed cDNA sequence tag; EST)シーケンス、遺伝子発現連続分析(serial analysis of gene expression; SAGE)タグシーケンス、超並列シグネチャシーケンス (massively parallel signature sequencing; MPSS)、RNA-Seq(またはWhole Transcriptome Shotgun Sequencing; WTSS)、マルチプレックスin-situハイブリダイゼーション、などの手法でmRNAレベルを測定することで決定する。これらの手法はすべて、ノイズが非常に発生しやすく、生物学的な測定バイアスがかかってくるため、ハイスループットの遺伝子発現研究においてこのようなノイズを除去して信頼できる信号を分離する統計ツールの開発が計算生物学の研究分野で重要になっている[32]。このような遺伝子発現研究は、疾患に関与する遺伝子を特定するためによく使用される。例えば癌性上皮細胞のマイクロアレイデータを非癌性細胞のデータと比較して、特定の癌細胞集団で発現上昇あるいは発現抑制される転写産物を決定することができる。
タンパク質マイクロアレイとハイスループット(HT)質量分析(mass spectrometry; MS)は、生体サンプルに存在するタンパク質のスナップショットを提供する。得られるタンパク質マイクロアレイとHTMSデータの解析には、バイオインフォマティクスは重要である。前者のアプローチはmRNAをターゲットとするマイクロアレイと同様の問題に直面し、後者は大量の質量データをタンパク質配列データベースからの予測質量と照合し、不完全なペプチドを除くための複雑な統計分析が必要になる。組織における細胞タンパク質の空間局在は、免疫染色や組織マイクロアレイに基づいたアフィニティプロテオミクスによって解析することができる[33]。
遺伝子転写調節は、ホルモンなどを含む細胞内外のシグナルによって、1つ以上のタンパク質の活性の増加・減少が駆動される、複雑な調節システムである。 このプロセスの各ステップを検証する、様々なバイオインフォマティクス技術が適用されている。たとえば、遺伝子発現は プロモーターのような、ゲノム内で遺伝子に近接した要素によって調節される。プロモーター分析ではまず、遺伝子コード領域に近接しているDNA配列中から、特定の配列モチーフを検出する。 これらのモチーフは、その領域がmRNAに転写される際に影響を与える。一方で、プロモーターから離れたエンハンサー要素は、3次元的な相互作用を通じて遺伝子発現を調節することもある。このような相互作用は、染色体コンフォメーションキャプチャ(Hi-C)法による実験と得られたデータのバイオインフォマティクス解析から決定される。
また、遺伝子発現データから、遺伝子転写調節の要因を推測する研究もある。さまざまな状態の組織から得られたマイクロアレイデータを比較して、各状態に関与する遺伝子の挙動を推測することができる。例えば単細胞生物では、細胞周期の段階におけるストレス条件(熱ショック、飢餓など)を比較できる。 あるいはクラスタリングアルゴリズムを発現データに適用することで、遺伝子の共発現を解析できる。たとえば、共発現する遺伝子の上流領域(プロモーター)を探索することで、過剰発現を引き起こす調節要素を調べることができる。遺伝子クラスタリングに適用されるクラスタリングアルゴリズムの例には、k平均クラスタリング、自己組織化マップ (SOM)、階層的クラスタリング、コンセンサスクラスタリング、などの手法がある。
細胞内のオルガネラや遺伝子、タンパク質、およびその他のコンポーネントの位置を分析するために、様々なアプローチが開発されている。これらのコンポーネントの位置は細胞内のイベントに影響を与えるため、その分布や局在を調べることは生物系の挙動を予測するのに役立つ。
顕微鏡写真から、オルガネラや分子を検出することができる。
タンパク質の局在化は、そのタンパク質の役割を評価するのに役立つ。たとえば、タンパク質が核で見つかった場合、それは遺伝子調節やスプライシングに関与している可能性がある。対照的に、タンパク質がミトコンドリアで見つかった場合、それは呼吸や他の代謝プロセスに関与している可能性がある。したがって、タンパク質の局在化は、タンパク質機能を予測する上で重要な情報源となる。タンパク質の細胞内位置に関するデータベースや予測ツールといったリソースが構築されている[34][35]。
Hi-CやChIA-PETなどのハイスループット染色体コンフォメーションキャプチャー実験からのデータは、DNA遺伝子座の空間的近接性、すなわち核内で安定的に構造化されている立体的な折りたたみ構造によって、ゲノム配列上のどことどこの領域が近接して存在しているのか、に関する情報を提供する。そのためこれらの実験の分析から、クロマチンの三次元構造を決定することができると考えられる。ゲノムを3次元空間でまとめて構成されたトポロジカル関連ドメイン (TAD)といったドメイン分割に関する研究が、この分野のバイオインフォマティクスの課題となっている[36]。
タンパク質のアミノ酸配列からその高次(2次、3次、及び4次)構造を予測することは、バイオインフォマティクスの大きな課題の一つである。タンパク質のアミノ酸配列(一次構造)は、それをコードする遺伝子の配列情報から、比較的簡単に決定できる。そして多くの場合、この1次構造は実際の細胞内における高次構造を一意に決定する。つまり、同じアミノ酸配列を持つタンパク質はずべて同じように細胞内でコンフォメーションをとて折りたたまれ、同じ2次構造や3次構造を立体構造を作り出す、ということである(ただし例外としては、牛海綿状脳症 (狂牛病)を引き起こすプリオンなどがある)。高次構造の知識は、タンパク質の機能を理解する上で不可欠である。
バイオインフォマティクスの重要なアイデアの1つは、「配列類似性」の概念である。バイオインフォマティクスのゲノム解析では、配列の類似性を利用して、その遺伝子の機能を予測する。具体的には、例えば機能がわかっている遺伝子Aの配列が、機能が不明な遺伝子Bの配列とある程度類似している場合、BがAの機能を共有することが予想される。バイオインフォマティクスの構造分野では、この配列類似性を使用して、タンパク質のどの部分が構造を作り、どの部分が他のタンパク質との相互作用に重要であるか、等を推測する。ホモロジーモデリングと呼ばれる手法では、配列的に類似なタンパク質の構造がわかっていれば、その情報を使用して任意のタンパク質の高次構造を予測する。この手法は、タンパク質構造を予測する有用な手法の一つである。この手法が効果的な例の一つは、ヒトのヘモグロビンと豆類のヘモグロビン(レグヘモグロビン)である。これらは同じタンパク質スーパーファミリーではあるが、遠い親戚関係のタンパク質である。どちらも生体内で酸素を輸送するという同じ目的を果たし、両者で完全に異なるアミノ酸配列を持っているが、構造的には実質的に同一であるため、ほぼ同一の目的を持り、かつ同一の祖先を共有していると考えられている[37]。
ネットワーク分析は、代謝ネットワークやタンパク質間相互作用ネットワークなどの生物学的ネットワークの関係を理解することを目的としている。生物学的ネットワークは単一のタイプの分子またはエンティティ(遺伝子など)から構築される。
システム生物学では、細胞内における複雑なプロセスの関係性を分析し視覚化するために、代謝プロセスを担う代謝産物や酵素のネットワークやシグナル伝達経路、遺伝子調節ネットワークといった細胞システムをコンピューターシミュレーションを用いて解析する研究が進められている。
2020年現在、数万を超えるタンパク質について、X線結晶学およびタンパク質核磁気共鳴分光法(タンパク質NMR)によって3次元構造が決定されている。
計算言語学による文献分析では、計算と統計に基づく言語学的解析を通じて、増大するテキストリソースからマイニングすることを目的としている。
大量の情報量の多い生物医学画像の処理や定量化、分析を加速または完全に自動化するために計算技術を利用する研究も進められている。画像解析システムにおいては、大規模で複雑な画像セットから測定を行うための精度や客観性、そして処理速度の向上が重要になってくる。理想的には、分析システムの発達により、様々なケースにおいて人が画像や動画の判断をする必要がなくなる。このような画像処理システム自体は生物医学分野に固有のものではないが、例えば疾患の診断や研究においてはそれらの分野に特化した画像解析技術が重要になる。具体的な応用分野としては、以下のものが挙げられる。
研究用プログラムの開発に使われる言語としては他に以下のようなものがあげられる。これらの殆どにそれぞれバイオインフォマティクス用のライブラリが開発されている。
データベースは、バイオインフォマティクスの研究と応用に不可欠である。DNAやタンパク質の配列、分子構造、表現型、生物多様性など、さまざまな情報タイプをカバーする多くのデータベースが構築されている。データベースには、実験的に取得される実験データと、分析から取得される予測データの片方または両方が含まれる。データベースはしばしば、特定の生物や代謝経路、目的分子に特化して構築される。また一方で、他の複数のデータベースからコンパイルされたデータを組み込むこともある。バイオインフォマティクスで扱うデータは、一次元の文字列(シーケンス全般)から、三次元構造のマトリクス (PDB)、計算機科学におけるグラフ(ネットワークデータ全般)、遺伝子オントロジーのような有向非巡回グラフ (DAG; directed acyclic graph) といった非常に多岐にわたるデータ構造を持つ。各種のデータベースは、ファイル形式やアクセスメカニズム、パブリックかどうか、などの様々な点で差異がある。生物学研究に用いられる主なデータベースは、以下のようなものが挙げられる(カッコ内は具体例):
バイオインフォマティクス用のソフトウェアツール(英語版:Software tools for bioinformatics)は、単純なコマンドラインツールから、さまざまなバイオインフォマティクス企業や公的機関が提供するより複雑なグラフィカルプログラム、スタンドアロンのWebサービスなど、多岐に渡り、非常に多くのバイオインフォマティクスソフトウェアが開発され公開されている。多くのソフトウェアがオープンソースとされており、研究者は自由に利用することができる場合が多いが、有償のものもある。データベースを基盤とするソフトウェアは、開発元がWebブラウザから利用できるウェブアプリケーションとして公開している場合も多い。
1980年代にバイオインフォマティクスが盛り上がって以来、多くのフリーでオープンソースのソフトウェアツールが開発され公開されている[38]。新しいタイプの生物学的な成果を生み出すためには、新しいアルゴリズムを開発することが必要になることも多い。一方で、革新的なin silico実験から新たな知見を得られる可能性もある。そのため、ソフトウェアを自由に利用できるオープンコードで無料で公開することで、あらゆる研究グループがバイオインフォマティクスに貢献する文化が育まれている。オープンソースツールは、アイデアを生み出し育む器として機能し、商業的アプリケーションに組み込まれることもある。また、生体情報統合の課題を支援するための、事実上の標準化や共有オブジェクトモデルを提供することもある。
オープンソース・ソフトウェア・パッケージには、Bioconductor、BioPerl、Biopython、BioJava、BioJS、BioRuby、Bioclipse、EMBOSS、.NET Bio、Orange、Apache Taverna、UGENE、GenoCAD、などのソフトウェア類が挙げられる。また、この伝統を維持し、さらなる機会を創出するために、非営利のOpen Bioinformatics Foundation[38] は、2000年以来毎年開催されるBioinformatics Open Source Conference(BOSC)を支援してきている[39]。
パブリックなバイオインフォマティクスデータベースを構築する方法としては、WikiOpener拡張機能を備えたMediaWikiエンジンを使用する方法もある。このシステムでは、その分野の研究者が各自でデータベースにアクセスして更新することができる[40]。
SOAPおよびRESTベースのインターフェースが、さまざまなバイオインフォマティクスアプリケーション向けに開発されている。このようなシステムの元では、サーバー上に保管されているアルゴリズムやデータ、コンピューティングリソースに対して、世界中のコンピューター上からアクセスしてアプリケーションを実行することができる。エンドユーザーがソフトウェアやデータベースのメンテナンスのオーバーヘッドに対処する必要がないという利点がある。
基本的なバイオインフォマティクスサービスは、EBIによる3つのカテゴリに分類できる。シーケンス検索サービス(SSS)、シーケンスアライメント(MSA)、生物学的シーケンス分析(BSA)である[41]。 これらのバイオインフォマティクスリソースの可用性は、Webベースのバイオインフォマティクスソリューションの適用性の広さを示している、このようなWebサービスは、スタンドアロンの各種ツール類から、統合型の分散型で拡張可能なバイオインフォマティクスのワークフロー管理システム(bioinformatics workflow management systems)まで、幅広く存在する。
バイオインフォマティクスワークフロー管理システムは、バイオインフォマティクスアプリケーションにおける一連の計算やデータ操作のステップ、つまりワークフローを構成し実行するために設計された、ワークフロー管理システムの特殊な形式である。下記の様な特徴があり、例としてはGalaxy、Kepler、Taverna、UGENE、Anduril、HIVEなどが挙げられる。
2014年に米国食品医薬品局は、バイオインフォマティクスの再現性について議論する会議を主催し、国立衛生研究所のベセスダキャンパスで開催された[42]。それから3年間に渡り、政府、業界、および学術団体の代表によるコンソーシアムが定期的に開かれ、BioComputeパラダイムについて話し合いが行われた[43]。セッションリーダーは、FDAとNIHの研究所とセンターの多数の支部、Human Variome ProjectやEuropean Medical Federation for Medical Informaticsなどの非営利団体、Stanford、New York Genome Center、George Washington Universityなどの研究機関の代表であった。
この会議によりBioComputeは、バイオインフォマティクスプロトコルの再現性、複製、レビュー、再利用を可能にするデジタル「ラボノートブック」形式のパラダイムを決定した。これは、グループ間のアイデアの交換を促進しながら、通常の人員流動の過程で研究グループ内のより大きな継続性を可能にするために提案されていた。
2016年、グループはベセスダのNIHで再招集し、BioComputeパラダイムの例であるBioComputeオブジェクトの可能性について議論をすすめた。 この成果は、'standard trial use'ドキュメントとbioRxivにアップロードされたプレプリント論文として発表された。BioComputeオブジェクトを使用すると、JSON化されたレコードを従業員、共同編集者、規制当局間で共有することができる[44][45]。
バイオインフォマティクスの概念と方法を教育するために、様々なプラットフォームが設計されている。たとえば、スイスのバイオインフォマティクス研究所トレーニングポータルを通じて提供される ROSALIND のオンラインコースが挙げられる。カナダのバイオインフォマティクスワークショップは、クリエイティブ・コモンズライセンスに基づいて、ウェブサイトのトレーニングワークショップのビデオとスライドを提供している。 4273πプロジェクト または4273piプロジェクト[46] も、オープンソースの教育資料を無料で提供している。 このコースは低コストのRaspberry Piコンピュータを利用し、大人や学校の生徒を教えるために使用されている[47][48]。4273πは、Raspberry Piコンピューターと4273πオペレーティングシステムを使用して、研究レベルのバイオインフォマティクスを利用している研究者や研究スタッフによるコンソーシアムによって積極的に開発されている[49][50]。
バイオインフォマティクス分野の国内学会および国際学会として、日本バイオインフォマティクス学会およびInternational Society for Computational Biologyがある。
また国際会議として、Intelligent Systems for Molecular Biology (ISMB)、European Conference on Computational Biology (ECCB)、Research in Computational Molecular Biology (RECOMB)、International Conference on Genome Informatics (GIW)などがある。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.