距離行列法

ウィキペディアから

距離行列法(きょりぎょうれつほう、Distance-matrix methods)または距離法(きょりほう、Distance methods, Distance-based methods)は、分類群同士の進化距離を定義して距離行列を作成し、距離の近い分類群同士を接続して系統樹を作成する系統推定法の総称。主な距離行列法には近隣結合法非加重結合法などがある。

距離行列の作成

ある2つの生物群が持つ(DNA塩基タンパク質アミノ酸などの)配列の相違は、生物群同士の近縁性と相関がある。近縁性は進化距離に言い換えることができ、このため配列の相違を進化距離に換算できる[1]。進化距離には塩基やアミノ酸の置換数を使用するが、このとき置換した塩基やアミノ酸の種類を考慮するなど、進化モデルを仮定した解析が数多く登場している[1][2]。具体的には、Jukes-Cantorの1パラメータモデル、Kimuraの2パラメータモデルなどがある[3]

系統推定を行う全ての分類群について各組の進化距離を計算すると距離行列が作成できる。以下に距離行列の例を示す[1]。aからeまでのアルファベットは分類群を指し、各数字はそれぞれの組の進化距離を意味する。

さらに見る a, b ...
a b c d e
a - 5 9 9 8
b - 10 10 9
c - 8 7
d - 3
e -
閉じる

こうした距離行列に基づくと系統樹の計算速度が速いため、距離行列を利用した系統推定は数多く考案されている[1]

なお、距離行列の作成は配列間の差異以外に基づくことも可能である。例えば、2つの分類群で特定の遺伝子の有無を0と1でスコアリングする、遺伝子座を等しくするために必要な染色体転座染色体逆位の回数で距離を定義する、などの方法がある[1]

系統樹の作成

距離行列法は、作成した距離行列からどのように系統推定を行うかによって複数種類に分類できる。

UPGMA
日本語では平均距離法[1][4]、群平均法[3]、非加重平均結合法[2]などと呼ばれる。
距離行列中で最小の要素を持つ組を最も近縁な組として接続し、それぞれの系統の枝の長さを進化距離の半分ずつ与える。この過程を繰り返して系統樹を作成する。距離行列法の中で最も単純な手法である[1]
進化距離の枝ごとの一定性を仮定しているため、一般に一定性が成り立たない自然界では正確性が低い一方、分岐年代を系統樹上に表示できるため分子時計を仮定できるデータの解析に適している[4]
近隣結合法
進化距離を計算した全ての分類群を放射状の星型系統樹上の節に配置する。2つの節を1対1で結合した系統樹を作成して系統樹全体の枝長を計算し、それが最小となる組を最も近縁(近隣)と見なし、その操作を繰り返して系統樹を作成する[4]。UPGMAを改良した手法である[3]
進化距離の一定性を仮定しないため、系統によって進化速度に差が存在する場合でも正確性の高い系統樹を作成できる[4]。正確性と計算速度の速さゆえに、距離行列法の中でも広く用いられている[2]
最小進化法英語版
UPGMAや近隣結合法が各ステップで最小進化原理を適用していたのに対し、この手法では考えられる全ての系統樹で樹形全体の枝長を求め、最も総枝長の短い系統樹を選択する。計算量が多く必要な計算時間が長いため、近隣結合法による系統樹を初期系統樹として最適樹を探索する方法が一般的である[4]
系統的最小二乗法英語版
最小二乗法により、最小進化法と同様に系統樹全体に最小進化原理を適用する。やはり系統樹探索に時間を要する[2]

特徴

距離行列法は特にUPGMAと近隣結合法において計算速度が速い[5]。これは両者の手法が最小二乗法や最小進化法と異なり段階的に最小進化原理を適用しているゆえ[2]、距離行列の計算が計算量の大部分を占めているためである[5]

距離行列法に共通する問題点には、形質状態の差異を距離情報に変換するため情報が喪失してしまう点が挙げられる。このため、異なる配列間で同じ進化距離になる場合もコンが得られる[5]。また、進化モデルに基づく距離行列そのものの正確な推定が困難である、という問題もある[6]

距離行列法を実装する系統解析ソフトウェアにはMEGAがある[3]

出典

Wikiwand - on

Seamless Wikipedia browsing. On steroids.