宏基因组学(英语:Metagenomics),又译元基因组学、总体基因体学,是一门直接取得环境中所有遗传物质的研究。研究领域广泛,也可称为环境基因体学、生态基因体学或群落基因体学。在早期研究微生物基因体必须将环境基因DNA或RNA克隆进入大肠杆菌体内,利用复制选殖方式,分析在自然环境中复制选殖特定基因(通常为16S rRNA)的多样性。但是,这样的工作表明,绝大多数的微生物生物多样性已被基于复制选殖的方法所遗漏[1]。最近的研究使用“霰弹枪”或PCR定向测序来获得来自所有样本社区所有成员的所有基因的大部分无偏差的样本基因[2]。由于其能够揭示以前隐藏的微生物多样性,宏基因组学提供了一个强大的镜头,用于观察微生物世界,这些微生物世界有可能彻底改变对整个生命世界的理解[3][4]。随着DNA测序的价格不断下降,宏基因组学现在允许微生物生态学以比以前更大的规模和细节进行调查。
此条目的引用需要清理,使其符合格式。 (2013年1月15日) |
字源
“宏基因组学” 一词是在1998年由Jo Handelsman(页面存档备份,存于互联网档案馆)、Jon Clardy及Robert M. Goodman(页面存档备份,存于互联网档案馆)等人所出版的书籍中所使用的术语[5]。2005年,Kevin Chen(页面存档备份,存于互联网档案馆)和 Lior Pachter定义“宏基因组学”,意指直接研究环境中微生物群落基因体学的应用,而非于实验室中进行单一个体纯化与培养的实验方式[6]。
人类宏基因组
是指与人类共生的全部微生物的基因总和。又被称为“微生物组”或“人类第二基因组”。
人类体内的微生物多达1000多种[7],特别是胃肠道内的微生物最为丰富;因此我们所说的宏基因组在狭义上指的是肠道源基因组。在过去的很多年中,人们对微生物的研究只是限于单一的微生物物种研究,但是科学家后来发现,人类体内大多数微生物的生命活动由复杂的微生物群落来完成。
在以往的科学研究中都认为生物体的表现型是由生物体自身的基因表达调控的。但是人们同时也知道人类是与微生物共生的,比如在2005年诺贝尔生理学或医学奖表彰的就是科学家马歇尔和沃伦关于幽门螺旋杆菌与胃炎及胃溃疡之间联系的发现;这一发现其实就是人类宏基因组的的部分基因表达后的结果。人体内微生物的编码基因的总量大约是人类编码基因数目的50-100倍[8],这相当于在人类体内存在着另一个基因组通过表达调控人体的生命健康,即第二基因组。
目前关于宏基因组的研究还处于一个比较浅的阶段,在现有的研究中普遍认为糖尿病和肥胖症与人体宏基因组有关。2010年3月,关于人类肠道宏基因组的研究有了新的突破,在各国科学家努力下,已经基本绘制出了人类肠道宏基因组的图谱[9],这将对科学家研究肠道微生物与人类健康的关系提供有力的帮助。
微生物在人体的食物消化、机体免疫等方面发挥着重要作用。在大多数情况下,微生物通过群落而非单一个体来发挥这些重要功能。 水体、土壤、肠道和很多的人工生物环境(如废水处理、食品发酵、堆肥、沼气池,等等)都具有很复杂的微生物群落,这些微生物相互作用、共同协作,一起完成复杂的代谢功能。环境样品中的微生物组成的群落构成了一个巨大而复杂的基因库,在这个基因库中既包含代表不同微生物身份的系统发育标记基因(如16S rRNA基因),也包含各种代谢功能基因,它们统称为宏基因组(Metagenome,又称宏基因组、环境基因组或生态基因组),这些基因确定了样品微生物群落的组成与功能。研究样品的基因组是认识复杂微生物群落的主要途径。
宏基因组学在开发微生物资源多样性、筛选获得新型活性物质、发掘与抗生素抗性、维生素合成及污染物降解相关的蛋白质等方面展示了很大的潜力。
二代定序仪(NGS)
454定序技术(2016年,Roche 454系统已退出市场) 是2005年美国454生物科学公司推出的DNA定序仪器。 运作原理[10]如下,首先将欲定序的DNA片段打成约300~800bp的小片段,并于两端接上转接序列,接着,加入大小约28µm表面带有互补转接序列的微磁珠,并利用聚合酶连锁反应进行增幅,每一个片段将被增幅约一百万倍。再将此表面带有DNA增幅产物的微磁珠,放入具有可感光侦测的微孔盘中,一孔一磁珠。最后再进行焦磷酸定序法[11]反复的试剂置换与侦测,快速地读取大量之定序结果,最后辅以资讯软件系统,分析配对出完整之核酸序列。
目前16S Metagenome以Ion PGM™ System 系统 和 Illumina 系统 为主。
生物讯息
透过宏基因组实验所产生的数据都是非常庞大的,这些分散的数据包含多达10,000多种的物种[12]。收集、整理然后从这样庞大的资料中,要如何提取出有用的生物资讯,对于研究人员来说是很大的挑战。
从基因组和宏基因组所获得的DNA序列数据,本质上是相同的,但基因组序列数据提供了更广泛的覆盖范围而宏基因组的资料通常是是非常烦冗的[13]。此外,使用小片段判读的二代定序技术意味着许多未来的宏基因组的数据会比较容易出错。将上述两点结合来看,这些因素使得将宏基因组的序列组合起来变成基因组会很困难而且不可靠。由于重复的DNA序列的出现所导致的组合错误会使得序列组合更为困难,因为样本中出现的物种其相对丰富度有所不同。将从多个物种而来的序列接合起来而变成一个荒谬的序列也可能会造成组合错误[14]。 有几个组合的方式,其中大部分可以使用配对末端标签的讯息来促进组合的正确性。某些方式像是Phrap或CeleraAssembler,虽然是被设计用来组合单一个基因组但当组合宏基因组的资料被集合在一起时仍然产生很好的结果[12]。其他程式,像是 Velvet assembler,透过使用迪布恩图的方式已经能有效的判读由二代定序技术所产生的小片段。利用参考的基因序列让研究者能增进大部分微生物物种的序列组合,但是这种方式是限制于小部分基因组定序的微生物类群。
宏基因组分析使用编码区注释中的两种方法来组合基因序列末端标签[14]。第一个方法是根据在序列数据库中已公开的同源基因来辨别基因,通常是透过简单的BLAST搜索。这种搜索方法是MEGAN4程式里面就有的[15]。第二个,从头计算,使用序列固有的特点根据从相关物种而来的gene training sets来预测编码区段。GeneMark和GLIMMER等程式就是采用这种方式[16]。从头计算的主要优点是它能够侦测在序列数据库中缺少同源片段的编码区。然而,最准确的时候是用连续的基因组DNA的大片段来比较[12]。
基因资料提供了“这是什么”,而物种多样性的测量提供了“这是谁”[18]。为了将群落组成和宏基因组的功能两者连结在一起,基因序列必须被连结。连结是将一个特定序列和一个生物串起来的过程[14]。在相似度的连结中,像是BLAST方法被用在快速地寻找演化树标记或是在现存的公共序列数据库中的相似序列。这种方法在MEGAN中有使用过[19]。其他的工具、像是PhymmBL,利用内插马可夫模型来分配读取的片段[12]。MetaPhlAn是另外一种方法根据物种独特的标记,改良的计算效能,来估计生物的相对丰度[20]。根据联结方式的组成中,用于序列的固有特性的方法,像是寡核苷酸的频率或是密码子使用偏好。
以指数增加的大量序列数据是一项艰钜的挑战因为这些与总体基因有关的错综序列数据是非常复杂的。资料本身包含三维地理(包括深度或高度)以及样本的环境特色、取样地点的物理数据和采样方法等细节资料。这些资料能同时去确保复制性以及能够继续进行接下来的分析。由于其重要性,资料本身和相关数据的审视和保管位在特定数据库中的标准资料格式是需要的,像是the Genomes OnLine Database (GOLD)[21]。 有几个工具已经发展到可以整合资料本身和序列数据,使用一连串生态指数来进行不同数据库的下游比较分析。2007年,Folker Meyer和Robert Edwards和Argonne国家实验室和芝加哥大学的一个研究小组利用Subsystem Technology server(MG-RAST)发表了宏基因组的快速注释,这个服务器是一个共有资源,用来分析宏基因组数据集[22]。截至2012年6月超过14.8兆碱基(14x1012碱基)的DNA被进行了分析,超过10,000个开放数据库可以自由地使用MG-RAST进行比较。现在已经超过8000个用户,共提交了5万个宏基因组到MG-RAST。The Integrated Microbial Genomes/Metagenomes (IMG/M) system也提供了一个根据微生物群体的宏基因组序列进行牠们的功能性分析的工具集,这个工具集是根据参考在 Integrated Microbial Genomes (IMG) system和the Genomic Encyclopedia of Bacteria and Archaea (GEBA)project中独立的基因组所建构而成[23]。 其中第一个独立的电脑工具用来分析高流量的宏基因组资料是MEGAN(MEta Genome ANalyzer)[15][19]。第一版的程式是2005年用来分析从长毛象骨头获得的DNA序列的宏基因组[24]。根据BLAST比较参考的数据库,这个工具同时表现其分类群和功能性,借由将判读的片段分别放到利用a simple lowest common ancestor (LCA)的运算法则的NCBI分类群的节点上或是放到SEED或是KEGG 分类群的节点上[25]。
宏基因组之间的比较分析提供额外可观察复杂的微生物群落的功能,在宿主健康中所扮演的角色[26]。成对或多个宏基因组之间的比较,可在序列组成(GC含量和基因组大小比较)、分类多样性或是功能性的层级来比较。族群结构和亲缘关系多样性的比较可以根据16S或是其他的亲缘关系标记基因,或者,在多样性低的群落的情况下,可借由宏基因组数据库来重建该群落的基因组[27]。功能宏基因组之间的比较也许可以和COG或KEGG等参考数据库进行序列的比较,并且借由分类和推估有统计学意义的任何差异来将物种的丰度制成表格[28]。以该基因为中心的方法强调生物群落的功能为一个整体而不是将分类群当作一个整体,而且这样的情况显示功能性和身处在类似环境状况下两者是有异曲同工之妙[27]。因此,宏基因组取样的环境状况的资料在比较分析上是尤其重要的,当它提供研究者有能力去研究栖地对于群落结构和功能的影响。
应用
微生物群落在维护人类健康方面有很大的作用,但其组成和机制仍然是不清楚[29]。例如美国国立卫生研究院(页面存档备份,存于互联网档案馆)在2007启动人体微生物计划,这计划一开始最主要的目的是调查是否有人体微生物的存在、了解人体微生物的变化与人类健康的关系、并开发新的技术和生物资讯的工具,以支持这些目标[30][31]。
生物燃料是来自生物质转化的燃料,如玉米秸秆,柳枝稷,和其他生物质转化成纤维素乙醇[32],此过程依赖于细菌联合将纤维素转缓成糖类,然后糖类再经由发酵变成乙醇。此外微生物也是产生各种生物能源的来源,其中包括甲烷和氢气[32]。工业规模的生殖解构效率需要具有更高生产率和更低成本的酵素[33],用宏基因组学的方法在分析复杂的微生物群落可以有效的筛选适合应用在生物燃料生产工业上的酶,如糖苷水解酶的酶[34]。此外,在了解这些酵素的功能与控制酵素时都会需要有关宏基因组学的知识。宏基因组学的方法可以对汇聚性的微生物系统做比较性的统计,如生物气体发酵菌趋同微生物系统[35]、或植食性昆虫如切叶蚁的蚂蚁真菌共生等[36]。
宏基因组学的知识可以促进监测污染物对生态系统的影响,以及清理污染环境的策略。增加微生物群落对于污染物竞争的了解可以提高对可能受污染场址从污染中恢复的评估,并增加生物添加物与生物刺激试验成功的几率[37]。
微生物群落会产生了大量的用来竞争与沟通的具有生物活性的化学物质[38],现今我们使用的许多药物是基于微生物方面的发现,近期对于不可培养的微生物的丰富遗传资源的挖掘使我们发现许多新的基因、酵素与自然产物[39][40]。对于宏基因组学的应用使我们可以发展产品与精致的化学品、农用化学品和药品[41]。
有两种统计方法可以用在宏基因组学资料的生物探勘:1. 以功能筛选表达的性状以及2. 以序列筛选感兴趣的DNA序列[42]。以功能筛选的统计方式目的在于确认复制表达期望的性状或有用的活动,其次是生化鉴定和序列分析。此方法的限制是在一个合适的筛选以及想要的性状会在宿主细胞表达出来时。此外由于低发生率以及工作密集度的因素进一步的限制此方法的应用[43]。相反地,以序列筛选的统计方法使用保守的基因序列来设计PCR的primer来筛选感兴趣的基因的复制体[42]。相较于使用复制的方法,只使用序列的方法减少了大量的工作。大规模应用平行测序也大大增加的序列产生的数据的量,并需要大量生物资讯的统计[43]。使用序列的方法来筛选会受到基因的宽度与准确性在公用序列库表现的限制。实际上,实验室是使用功能与序列的合并方法来筛选感兴趣的功能、被筛选样本的复杂性与其他因素[43][44]。
植物生长的土壤中也住着微生物的群落,1克的土中包含约109-1010个微生物细胞其中包括十亿个序列讯息[45][46]。居住在土壤中的微生物群落是目前已知的科学中最复杂的,而且目前对于其了解并不多尽管他们在经济上很重要[47]。微生物联合表达了很多种对植物生长是必需的生态系统服务,包括固定大气中的氮,养分循环,抑制疾病,保存铁和其他金属[32]。功能性宏基因组被用来探索微生物与植物间的交互作用,借由独立培养这些微生物群落。借由了解未经耕种的、或是很少氮循环的群落菌种与促进植物生长,宏基因组学的方法可以有助于改善农作物和牲畜的疾病检测和增强适应性的耕作方法,并利用微生物和植物之间的关系改善作物的健康[32]。
宏基因组学可以为环境社区的功能生态学提供有价值的见解[48]。在澳大利亚海狮排便中发现的细菌联合体的宏基因组学分析表明,营养丰富的海狮粪便可能是沿海生态系统的重要营养来源。这是因为与排便同时排出的细菌擅长将粪便中的营养物质分解成可以吸收到食物链中的生物可利用形式[49]。
微生物群落在维护人类健康中起著关键作用,但是它们的组成和作用机制仍然是个谜。 宏基因组测序被用于表征来自至少250个个体的15-18个身体部位的微生物群落。 这是人类微生物组计划(英语:Human Microbiome Project,缩写:HMP)的一部分,其主要目标是确定是否存在核心的人类微生物群系,了解可能与人类健康相关的人类微生物组的变化,并开发新的技术和生物信息学工具来支持这些目标。
作为另一个项目的一部分进行的一项研究,MetaHit(Metagenomics of the Human Intestinal Tract、人体肠道宏基因组学),对124名丹麦人和西班牙人进行了研究,其中包括健康人、肥胖者和肠易激综合征患者。 这项研究检查了胃肠道菌群的系统多样性。我们正在研究居住在胃肠道的细菌菌群具有什么样的系统多样性。 结果表明,拟杆菌门(Bacteroidetes)和厚壁菌门(Firmicutes)这两个门是构成肠道菌群90%以上的菌株。
区分传染性疾病和非传染性疾病,并确定感染的潜在病因可能非常具有挑战性。 例如,尽管使用最先进的临床实验室方法进行了广泛的测试,但仍有一半以上的脑炎病例仍未得到诊断。通过将患者样本中发现的遗传物质与所有已知的微观人类病原体和数以千计的其他细菌、病毒、真菌和寄生虫生物的数据库以及抗菌素耐药性基因序列数据库进行比较,宏基因组测序有望成为诊断感染的一种灵敏且快速的方法 与相关的临床表型[来源请求]。事实上,在2019冠状病毒病的早期流行期间,SARS-CoV-2是通过使用下一代测序仪的综合基因检测方法检测到的[50]。
宏基因组学一直是一种宝贵的工具,可帮助表征由蚊子和蜱等食血(吸血)昆虫传播的病原体的多样性和生态学[51][52][53]。公共卫生官员和组织经常使用宏基因组学来监测虫媒病毒[54][55]。
参见
- 元蛋白质组学
- 微生物生态学
参考文献
外部链接
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.