泛基因組是為描述一個物種基因組而提出的概念,指同一細菌物種中所有菌株中所有基因的集合,而不單純以某個菌株為一個物種的全基因組。會需要使用泛基因組的原因是水平基因轉移造成不同菌株之間所擁有的基因相差甚大。
詞源
泛基因組的英文是Pan-genome, Pan- 來自希臘語詞彙 παν,意思是「全部的」[3]。在1987年[4],細菌物種的概念是大於70%的DNA相關聯,並具有相同的表型性。但是隨着對大量細菌基因組測序的完成,這種概念區分方法變得模糊、不確定——測定同一物種的不同菌株,常會有新的基因出現。這個概念常被用於總體基因體學、演化生物學,應用的物種也有被延伸到植物或古菌。
泛基因組的組成部分
泛基因組包含核心基因和附加基因。核心基因是所有個體都擁有的基因,附加基因則為非核心基因的基因[5][6]。在附加基因組中,若僅有一個個體具有該基因,則可稱之為獨特基因(英語:unique gene)。為了允許註解及基因序列組裝的錯誤,對核心基因組較為寬鬆的定義可稱之為軟核心基因(soft core gene),其定義為於 95%以上的個體具有此基因。[7]
是泛基因組的一部分,由測試集中的每個基因組共享。 一些作者將核心泛基因組劃分為硬核,那些至少有一個基因組(100%的基因組)共享該家族拷貝的同源基因家族和軟核或擴展核心[8], 那些分佈在上面的家族 一定的閾值(90%)。 在一項涉及蠟樣芽孢桿菌和金黃色葡萄球菌泛基因組的研究中,其中一些是從國際空間站分離出來的,用於分割泛基因組的閾值如下:「雲」、「殼」和「核心」對應於基因 分別存在於 <10%、10%到95%、 和 >95% 的基因組中的家族[9]。
核心基因組的大小和與泛基因組的比例取決於幾個因素,但它尤其取決於所考慮基因組的系統發育相似性。 例如,兩個相同基因組的核心也將是完整的泛基因組。 一個屬的核心總是比一個物種的核心基因組小。 屬於核心基因組的基因通常與譜系的管家功能和初級代謝有關,然而,核心基因也可以包含一些將該物種與該屬的其他物種區分開來的基因,即可能與生態位的致病性相關適應[10]。
是泛基因組中大多數基因組共享的泛基因組的一部分[11]。 沒有普遍接受的定義殼基因組的閾值,一些作者認為如果一個基因家族被泛基因組中超過 50% 的基因組共享,則該基因家族是殼泛基因組的一部分[12]。 一個家族可以通過幾種進化動力學成為殼的一部分,例如通過譜系中的基因丟失,它以前是核心基因組的一部分,例如放線菌屬中色氨酸操縱子中的酶[13], 或通過基因獲得和固定一個基因家族,該家族以前是可有可無的基因組的一部分,例如幾種棒狀桿菌屬物種中的 trpF 基因[14]。
雲基因組由泛基因組中基因組的最小子集共享的那些基因家族組成[15], 它包括單例或僅存在於一個基因組中的基因。 它也被稱為周邊基因組。 此類基因家族通常與生態適應有關[來源請求]。
分類
各物種分有兩類泛基因組,分別為開放型泛基因組和閉合型泛基因組。閉合型泛基因組的物種隨著被定序的個體數量增加,泛基因組的大小增加有限,使得完整的泛基因組大小是在數學上可以預測的。相反地,開放型基因組的物種隨著定序的個體增加,其泛基因組的大小並未收斂。影響物種是為何種泛基因組,受到族群大小、水平基因轉移等影響。[6] [16]
歷史
最早的泛基因組概念是由Tettelin等人在研究六株B型鏈球菌的菌株時提出的 [2],最主要的概念就是找出所有菌株共有的核心基因(約佔每隻菌株基因體的80%),以及非必須的附加基因(有可能只存在於一小部分的菌株中,或甚至只出現在單一菌株的基因體中),並透過核心基因與附加基因的組合來描述B型鏈球菌。外推法模型預測這隻細菌的基因庫會持續增長,且即使在加入數百隻細菌後,新的基因將會不斷加入,顯示這隻細菌的總基因庫相當龐大。[2]
範例
44株肺炎鏈球菌菌株的泛基因體分析與B型鏈球菌有著不同的特徵形態—雖然每這44株細菌的基因體都會貢獻新的基因給肺炎鏈球菌的基因庫,但是基因增長速度會隨著細菌數量的增加而明顯變慢。事實上,外推法預測在50隻細菌加入後,新基因的數量將會降到零。顯而易見的是這個特徵並非所有細菌共有的。對肺炎鏈球菌來說,新基因最主要的來源是和緩鏈球菌的水平基因轉移。肺炎鏈球菌的泛基因大小將會與菌株數量成對數級增加,而與新加入基因體的核苷酸多形位點數量形成線性關係,顯示年紀越大的菌株將會越有可能得到新基因。[17]
最後一個例子是原綠球藻的核心基因體與完整的泛基因體大小比對。[18] 在這個例子中,核心基因體明顯地比泛基因體小很多,而不同生態型的原綠球藻會有著不同的基因組合。另一篇2015年的研究也在從人類身上不同部位分離普雷沃氏菌屬,並重建泛基因體後,發現這隻細菌有著龐大基因庫,且屬於開放式泛基因組類型。[19]
古菌也有一些泛基因組研究。 鹽桿菌綱泛基因組(Halobacteria pangenome) 在泛基因組子集中顯示以下基因家族:核心 (300)、可變組件(軟核心:998、雲:36531、殼:11784)[20]。
真菌、動物和植物等真核生物也顯示出泛基因組的證據。 在已研究泛基因組的四種真菌中,80%至90%的基因模型被發現為核心基因。 其餘輔助基因主要涉及發病機制和抗菌素耐藥性[21]。
軟體工具
隨著越來越多人關注泛基因體學,有更多的軟體可以用來建立與分析泛基因體、繪圖、註解。[22] [22]
2014 年底最高引用數的的軟體為 [22]Panseq[23] 以及 pan-genome analysis pipeline(PGAP)[24]。其他的選擇包含 BPGA - A Pan-Genome Analysis Pipepline for prokaryotic genomes、GET_HOMOLOGUES、Roary 與 CD-HIT[25] GET_HOMOLOGUES (頁面存檔備份,存於網際網路檔案館) [26] or Roary (頁面存檔備份,存於網際網路檔案館).[27] 。針對各家軟體的比較,可以參照 2015 年的一篇文章。[22]
針對植物泛基因體的軟體有 GET-HOMOLOGUES-EST[28] 。有關植物泛基因體可以參照 2015 的一篇文章[29]。
參閱
參考資料
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.