Loading AI tools
来自维基百科,自由的百科全书
宏基因组学(英語:Metagenomics),又譯元基因组学、总体基因体学,是一門直接取得環境中所有遺傳物質的研究。研究領域廣泛,也可稱為環境基因體學、生態基因體學或群落基因體學。在早期研究微生物基因體必須將環境基因DNA或RNA轉殖進入大腸桿菌體內,利用複製選殖方式,分析在自然環境中複製選殖特定基因(通常為16S rRNA)的多樣性。但是,這樣的工作表明,絕大多數的微生物生物多樣性已被基於複製選殖的方法所遺漏[1]。最近的研究使用“霰彈槍”或PCR定向測序來獲得來自所有樣本社區所有成員的所有基因的大部分無偏差的樣本基因[2]。由於其能夠揭示以前隱藏的微生物多樣性,總體基因體學提供了一個強大的鏡頭,用於觀察微生物世界,這些微生物世界有可能徹底改變對整個生命世界的理解[3][4]。隨著DNA測序的價格不斷下降,總體基因體學現在允許微生物生態學以比以前更大的規模和細節進行調查。
此條目的引用需要清理,使其符合格式。 (2013年1月15日) |
「總體基因體學」 一詞是在1998年由Jo Handelsman(页面存档备份,存于互联网档案馆)、Jon Clardy及Robert M. Goodman(页面存档备份,存于互联网档案馆)等人所出版的書籍中所使用的術語[5]。2005年,Kevin Chen(页面存档备份,存于互联网档案馆)和 Lior Pachter定義「總體基因體學」,意指直接研究環境中微生物群落基因體學的應用,而非於實驗室中進行單一個體純化與培養的實驗方式[6]。
是指与人类共生的全部微生物的基因总和。又被称为“微生物组”或“人类第二基因组”。
人类体内的微生物多达1000多种[7],特别是胃肠道内的微生物最为丰富;因此我们所说的宏基因组在狭义上指的是肠道源基因组。在过去的很多年中,人们对微生物的研究只是限于单一的微生物物种研究,但是科学家后来发现,人类体内大多数微生物的生命活动由复杂的微生物群落来完成。
在以往的科學研究中都認為生物體的表現型是由生物體自身的基因表達調控的。但是人們同時也知道人類是與微生物共生的,比如在2005年諾貝爾生理學或醫學獎表彰的就是科學家马歇尔和沃伦關於幽門螺旋桿菌與胃炎及胃潰瘍之間聯繫的發現;這一發現其實就是人類宏基因組的的部分基因表達後的結果。人體內微生物的編碼基因的總量大約是人類編碼基因數目的50-100倍[8],這相當於在人類體內存在著另一個基因組通過表達調控人體的生命健康,即第二基因組。
目前關於宏基因組的研究還處於一個比較淺的階段,在現有的研究中普遍認為糖尿病和肥胖症與人體宏基因組有關。2010年3月,關於人類腸道宏基因組的研究有了新的突破,在各國科學家努力下,已經基本繪製出了人類腸道宏基因組的圖譜[9],這將對科學家研究腸道微生物與人類健康的關係提供有力的幫助。
微生物在人體的食物消化、機體免疫等方面發揮著重要作用。在大多數情況下,微生物通過群落而非單一個體來發揮這些重要功能。 水體、土壤、腸道和很多的人工生物環境(如廢水處理、食品發酵、堆肥、沼氣池,等等)都具有很複雜的微生物群落,這些微生物相互作用、共同協作,一起完成複雜的代謝功能。環境樣品中的微生物組成的群落構成了一個巨大而復雜的基因庫,在這個基因庫中既包含代表不同微生物身份的系統發育標記基因(如16S rRNA基因),也包含各種代謝功能基因,它們統稱為宏基因組(Metagenome,又稱宏基因組、環境基因組或生態基因組),這些基因確定了樣品微生物群落的組成與功能。研究樣品的基因組是認識複雜微生物群落的主要途徑。
宏基因組學在開發微生物資源多樣性、篩選獲得新型活性物質、發掘與抗生素抗性、維生素合成及污染物降解相關的蛋白質等方面展示了很大的潛力。
454定序技術(2016年,Roche 454系統已退出市場) 是2005年美國454生物科學公司推出的DNA定序儀器。 運作原理[10]如下,首先將欲定序的DNA片段打成約300~800bp的小片段,並於兩端接上轉接序列,接著,加入大小約28µm表面帶有互補轉接序列的微磁珠,並利用聚合酶連鎖反應進行增幅,每一個片段將被增幅約一百萬倍。再將此表面帶有DNA增幅產物的微磁珠,放入具有可感光偵測的微孔盤中,一孔一磁珠。最後再進行焦磷酸定序法[11]反覆的試劑置換與偵測,快速地讀取大量之定序結果,最後輔以資訊軟體系統,分析配對出完整之核酸序列。
目前16S Metagenome以Ion PGM™ System 系統 和 Illumina 系統 為主。
透過總體基因體實驗所產生的數據都是非常龐大的,這些分散的數據包含多達10,000多種的物種[12]。收集、整理然後從這樣龐大的資料中,要如何提取出有用的生物資訊,對於研究人員來說是很大的挑戰。
從基因組和總體基因體所獲得的DNA序列數據,本質上是相同的,但基因組序列數據提供了更廣泛的覆蓋範圍而總體基因體的資料通常是是非常煩冗的[13]。此外,使用小片段判讀的二代定序技術意味著許多未來的總體基因體的數據會比較容易出錯。將上述兩點結合來看,這些因素使得將總體基因體的序列組合起來變成基因組會很困難而且不可靠。由於重覆的DNA序列的出現所導致的組合錯誤會使得序列組合更為困難,因為樣本中出現的物種其相對豐富度有所不同。將從多個物種而來的序列接合起來而變成一個荒謬的序列也可能會造成組合錯誤[14]。 有幾個組合的方式,其中大部分可以使用配對末端標籤的訊息來促進組合的正確性。某些方式像是Phrap或CeleraAssembler,雖然是被設計用來組合單一個基因組但當組合總體基因體的資料被集合在一起時仍然產生很好的結果[12]。其他程式,像是 Velvet assembler,透過使用迪布恩圖的方式已經能有效的判讀由二代定序技術所產生的小片段。利用參考的基因序列讓研究者能增進大部份微生物物種的序列組合,但是這種方式是限制於小部分基因組定序的微生物類群。
總體基因體分析使用編碼區註釋中的兩種方法來組合基因序列末端標籤[14]。第一個方法是根據在序列數據庫中已公開的同源基因來辨別基因,通常是透過簡單的BLAST搜索。這種搜索方法是MEGAN4程式裡面就有的[15]。第二個,從頭計算,使用序列固有的特點根據從相關物種而來的gene training sets來預測編碼區段。GeneMark和GLIMMER等程式就是採用這種方式[16]。從頭計算的主要優點是它能夠偵測在序列資料庫中缺少同源片段的編碼區。然而,最準確的時候是用連續的基因組DNA的大片段來比較[12]。
基因資料提供了“這是什麼”,而物種多樣性的測量提供了“這是誰”[18]。為了將群落組成和總體基因體的功能兩者連結在一起,基因序列必須被連結。連結是將一個特定序列和一個生物串起來的過程[14]。在相似度的連結中,像是BLAST方法被用在快速地尋找演化樹標記或是在現存的公共序列資料庫中的相似序列。這種方法在MEGAN中有使用過[19]。其他的工具、像是PhymmBL,利用內插馬可夫模型來分配讀取的片段[12]。MetaPhlAn是另外一種方法根據物種獨特的標記,改良的計算效能,來估計生物的相對豐度[20]。根據聯結方式的組成中,用於序列的固有特性的方法,像是寡核苷酸的頻率或是密碼子使用偏好。
以指數增加的大量序列數據是一項艱鉅的挑戰因為這些與總體基因有關的錯綜序列數據是非常複雜的。資料本身包含三維地理(包括深度或高度)以及樣本的環境特色、取樣地點的物理數據和採樣方法等細節資料。這些資料能同時去確保複製性以及能夠繼續進行接下來的分析。由於其重要性,資料本身和相關數據的審視和保管位在特定資料庫中的標準資料格式是需要的,像是the Genomes OnLine Database (GOLD)[21]。 有幾個工具已經發展到可以整合資料本身和序列數據,使用一連串生態指數來進行不同資料庫的下游比較分析。2007年,Folker Meyer和Robert Edwards和Argonne國家實驗室和芝加哥大學的一個研究小組利用Subsystem Technology server(MG-RAST)發表了總體基因體的快速註釋,這個伺服器是一個共有資源,用來分析總體基因體數據集[22]。截至2012年6月超過14.8兆鹼基(14x1012鹼基)的DNA被進行了分析,超過10,000個開放資料庫可以自由地使用MG-RAST進行比較。現在已經超過8000個用戶,共提交了5萬個總體基因體到MG-RAST。The Integrated Microbial Genomes/Metagenomes (IMG/M) system也提供了一個根據微生物群體的總體基因體序列進行牠們的功能性分析的工具集,這個工具集是根據參考在 Integrated Microbial Genomes (IMG) system和the Genomic Encyclopedia of Bacteria and Archaea (GEBA)project中獨立的基因組所建構而成[23]。 其中第一個獨立的電腦工具用來分析高流量的總體基因體資料是MEGAN(MEta Genome ANalyzer)[15][19]。第一版的程式是2005年用來分析從長毛象骨頭獲得的DNA序列的總體基因體[24]。根據BLAST比較參考的資料庫,這個工具同時表現其分類群和功能性,藉由將判讀的片段分別放到利用a simple lowest common ancestor (LCA)的運算法則的NCBI分類群的節點上或是放到SEED或是KEGG 分類群的節點上[25]。
總體基因體之間的比較分析提供額外可觀察複雜的微生物群落的功能,在宿主健康中所扮演的角色[26]。成對或多個總體基因體之間的比較,可在序列組成(GC含量和基因組大小比較)、分類多樣性或是功能性的層級來比較。族群結構和親緣關係多樣性的比較可以根據16S或是其他的親緣關係標記基因,或者,在多樣性低的群落的情況下,可藉由總體基因體資料庫來重建該群落的基因組[27]。功能總體基因體之間的比較也許可以和COG或KEGG等參考資料庫進行序列的比較,並且藉由分類和推估有統計學意義的任何差異來將物種的豐度製成表格[28]。以該基因為中心的方法強調生物群落的功能為一個整體而不是將分類群當作一個整體,而且這樣的情況顯示功能性和身處在類似環境狀況下兩者是有異曲同工之妙[27]。因此,總體基因體取樣的環境狀況的資料在比較分析上是尤其重要的,當它提供研究者有能力去研究棲地對於群落結構和功能的影響。
微生物群落在維護人類健康方面有很大的作用,但其組成和機制仍然是不清楚[29]。例如美國國立衛生研究院(页面存档备份,存于互联网档案馆)在2007啟動人體微生物計畫,這計畫一開始最主要的目的是調查是否有人體微生物的存在、了解人體微生物的變化與人類健康的關係、並開發新的技術和生物資訊的工具,以支持這些目標[30][31]。
生物燃料是來自生物質轉化的燃料,如玉米秸稈,柳枝稷,和其他生物質轉化成纖維素乙醇[32],此過程依賴於細菌聯合將纖維素轉緩成糖類,然後糖類再經由發酵變成乙醇。此外微生物也是產生各種生物能源的來源,其中包括甲烷和氫氣[32]。工業規模的生殖解構效率需要具有更高生產率和更低成本的酵素[33],用總體基因體學的方法在分析複雜的微生物群落可以有效的篩選適合應用在生物燃料生產工業上的酶,如糖苷水解酶的酶[34]。此外,在了解這些酵素的功能與控制酵素時都會需要有關總體基因體學的知識。宏基因組學的方法可以對匯聚性的微生物系統做比較性的統計,如生物氣體發酵菌趋同微生物系统[35]、或植食性昆蟲如切葉蟻的蚂蚁真菌共生等[36]。
總體基因體學的知識可以促進監測污染物對生態系統的影響,以及清理污染環境的策略。增加微生物群落對於汙染物競爭的了解可以提高對可能受污染場址從污染中恢復的評估,並增加生物添加物與生物刺激試驗成功的機率[37]。
微生物群落會產生了大量的用來競爭與溝通的具有生物活性的化學物質[38],現今我們使用的許多藥物是基於微生物方面的發現,近期對於不可培養的微生物的豐富遺傳資源的挖掘使我們發現許多新的基因、酵素與自然產物[39][40]。對於總體基因體學的應用使我們可以發展產品與精緻的化學品、農用化學品和藥品[41]。
有兩種統計方法可以用在總體基因體學資料的生物探勘:1. 以功能篩選表達的性狀以及2. 以序列篩選感興趣的DNA序列[42]。以功能篩選的統計方式目的在於確認複製表達期望的性狀或有用的活動,其次是生化鑑定和序列分析。此方法的限制是在一個合適的篩選以及想要的性狀會在宿主細胞表達出來時。此外由於低發生率以及工作密集度的因素進一步的限制此方法的應用[43]。相反地,以序列篩選的統計方法使用保守的基因序列來設計PCR的primer來篩選感興趣的基因的複製體[42]。相較於使用複製的方法,只使用序列的方法減少了大量的工作。大規模應用平行測序也大大增加的序列產生的數據的量,並需要大量生物資訊的統計[43]。使用序列的方法來篩選會受到基因的寬度與準確性在公用序列庫表現的限制。實際上,實驗室是使用功能與序列的合併方法來篩選感興趣的功能、被篩選樣本的複雜性與其他因素[43][44]。
植物生長的土壤中也住著微生物的群落,1克的土中包含約109-1010個微生物細胞其中包括十億個序列訊息[45][46]。居住在土壤中的微生物群落是目前已知的科學中最複雜的,而且目前對於其了解並不多儘管他們在經濟上很重要[47]。微生物聯合表達了很多種對植物生長是必需的生態系統服務,包括固定大氣中的氮,養分循環,抑制疾病,保存鐵和其他金屬[32]。功能性總體基因體被用來探索微生物與植物間的交互作用,藉由獨立培養這些微生物群落。藉由了解未經耕種的、或是很少氮循環的群落菌種與促進植物生長,總體基因體學的方法可以有助於改善農作物和牲畜的疾病檢測和增強適應性的耕作方法,並利用微生物和植物之間的關係改善作物的健康[32]。
總體基因體學可以為環境社區的功能生態學提供有價值的見解[48]。在澳大利亞海獅排便中發現的細菌聯合體的總體基因體學分析表明,營養豐富的海獅糞便可能是沿海生態系統的重要營養來源。這是因為與排便同時排出的細菌擅長將糞便中的營養物質分解成可以吸收到食物鏈中的生物可利用形式[49]。
微生物群落在維護人類健康中起著關鍵作用,但是它們的組成和作用機制仍然是個謎。 宏基因組測序被用於表徵來自至少250個個體的15-18個身體部位的微生物群落。 這是人類微生物組計劃(英語:Human Microbiome Project,缩写:HMP)的一部分,其主要目標是確定是否存在核心的人類微生物群系,了解可能與人類健康相關的人類微生物組的變化,並開發新的技術和生物信息學工具來支持這些目標。
作為另一個項目的一部分進行的一項研究,MetaHit(Metagenomics of the Human Intestinal Tract、人體腸道宏基因組學),對124名丹麥人和西班牙人進行了研究,其中包括健康人、肥胖者和腸易激綜合徵患者。 這項研究檢查了胃腸道菌群的系統多樣性。我們正在研究居住在胃腸道的細菌菌群具有什麼樣的系統多樣性。 結果表明,擬桿菌門(Bacteroidetes)和厚壁菌門(Firmicutes)這兩個門是構成腸道菌群90%以上的菌株。
區分傳染性疾病和非傳染性疾病,並確定感染的潛在病因可能非常具有挑戰性。 例如,儘管使用最先進的臨床實驗室方法進行了廣泛的測試,但仍有一半以上的腦炎病例仍未得到診斷。通過將患者樣本中發現的遺傳物質與所有已知的微觀人類病原體和數以千計的其他細菌、病毒、真菌和寄生蟲生物的數據庫以及抗菌素耐藥性基因序列數據庫進行比較,宏基因組測序有望成為診斷感染的一種靈敏且快速的方法 與相關的臨床表型[來源請求]。事實上,在2019冠状病毒病的早期流行期間,SARS-CoV-2是通過使用下一代測序儀的綜合基因檢測方法檢測到的[50]。
宏基因組學一直是一種寶貴的工具,可幫助表徵由蚊子和蜱等食血(吸血)昆蟲傳播的病原體的多樣性和生態學[51][52][53]。公共衛生官員和組織經常使用宏基因組學來監測蟲媒病毒[54][55]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.