Loading AI tools
来自维基百科,自由的百科全书
泛基因组是为描述一个物种基因组而提出的概念,指同一细菌物种中所有菌株中所有基因的集合,而不单纯以某个菌株为一个物种的全基因组。会需要使用泛基因组的原因是水平基因转移造成不同菌株之间所拥有的基因相差甚大。
泛基因组的英文是Pan-genome, Pan- 来自希腊语词汇 παν,意思是“全部的”[3]。在1987年[4],细菌物种的概念是大于70%的DNA相关联,并具有相同的表型性。但是随着对大量细菌基因组测序的完成,这种概念区分方法变得模糊、不确定——测定同一物种的不同菌株,常会有新的基因出现。这个概念常被用于总体基因体学、演化生物学,应用的物种也有被延伸到植物或古菌。
泛基因组包含核心基因和附加基因。核心基因是所有个体都拥有的基因,附加基因则为非核心基因的基因[5][6]。在附加基因组中,若仅有一个个体具有该基因,则可称之为独特基因(英语:unique gene)。为了允许注解及基因序列组装的错误,对核心基因组较为宽松的定义可称之为软核心基因(soft core gene),其定义为于 95%以上的个体具有此基因。[7]
是泛基因组的一部分,由测试集中的每个基因组共享。 一些作者将核心泛基因组划分为硬核,那些至少有一个基因组(100%的基因组)共享该家族拷贝的同源基因家族和软核或扩展核心[8], 那些分布在上面的家族 一定的阈值(90%)。 在一项涉及蜡样芽孢杆菌和金黄色葡萄球菌泛基因组的研究中,其中一些是从国际空间站分离出来的,用于分割泛基因组的阈值如下:“云”、“壳”和“核心”对应于基因 分别存在于 <10%、10%到95%、 和 >95% 的基因组中的家族[9]。
核心基因组的大小和与泛基因组的比例取决于几个因素,但它尤其取决于所考虑基因组的系统发育相似性。 例如,两个相同基因组的核心也将是完整的泛基因组。 一个属的核心总是比一个物种的核心基因组小。 属于核心基因组的基因通常与谱系的管家功能和初级代谢有关,然而,核心基因也可以包含一些将该物种与该属的其他物种区分开来的基因,即可能与生态位的致病性相关适应[10]。
是泛基因组中大多数基因组共享的泛基因组的一部分[11]。 没有普遍接受的定义壳基因组的阈值,一些作者认为如果一个基因家族被泛基因组中超过 50% 的基因组共享,则该基因家族是壳泛基因组的一部分[12]。 一个家族可以通过几种进化动力学成为壳的一部分,例如通过谱系中的基因丢失,它以前是核心基因组的一部分,例如放线菌属中色氨酸操纵子中的酶[13], 或通过基因获得和固定一个基因家族,该家族以前是可有可无的基因组的一部分,例如几种棒状杆菌属物种中的 trpF 基因[14]。
云基因组由泛基因组中基因组的最小子集共享的那些基因家族组成[15], 它包括单例或仅存在于一个基因组中的基因。 它也被称为周边基因组。 此类基因家族通常与生态适应有关[来源请求]。
各物种分有两类泛基因组,分别为开放型泛基因组和闭合型泛基因组。闭合型泛基因组的物种随着被定序的个体数量增加,泛基因组的大小增加有限,使得完整的泛基因组大小是在数学上可以预测的。相反地,开放型基因组的物种随着定序的个体增加,其泛基因组的大小并未收敛。影响物种是为何种泛基因组,受到族群大小、水平基因转移等影响。[6] [16]
最早的泛基因组概念是由Tettelin等人在研究六株B型链球菌的菌株时提出的 [2],最主要的概念就是找出所有菌株共有的核心基因(约占每只菌株基因体的80%),以及非必须的附加基因(有可能只存在于一小部分的菌株中,或甚至只出现在单一菌株的基因体中),并透过核心基因与附加基因的组合来描述B型链球菌。外推法模型预测这只细菌的基因库会持续增长,且即使在加入数百只细菌后,新的基因将会不断加入,显示这只细菌的总基因库相当庞大。[2]
44株肺炎链球菌菌株的泛基因体分析与B型链球菌有着不同的特征形态—虽然每这44株细菌的基因体都会贡献新的基因给肺炎链球菌的基因库,但是基因增长速度会随着细菌数量的增加而明显变慢。事实上,外推法预测在50只细菌加入后,新基因的数量将会降到零。显而易见的是这个特征并非所有细菌共有的。对肺炎链球菌来说,新基因最主要的来源是和缓链球菌的水平基因转移。肺炎链球菌的泛基因大小将会与菌株数量成对数级增加,而与新加入基因体的核苷酸多形位点数量形成线性关系,显示年纪越大的菌株将会越有可能得到新基因。[17]
最后一个例子是原绿球藻的核心基因体与完整的泛基因体大小比对。[18] 在这个例子中,核心基因体明显地比泛基因体小很多,而不同生态型的原绿球藻会有着不同的基因组合。另一篇2015年的研究也在从人类身上不同部位分离普雷沃氏菌属,并重建泛基因体后,发现这只细菌有着庞大基因库,且属于开放式泛基因组类型。[19]
古菌也有一些泛基因组研究。 盐杆菌纲泛基因组(Halobacteria pangenome) 在泛基因组子集中显示以下基因家族:核心 (300)、可变组件(软核心:998、云:36531、壳:11784)[20]。
真菌、动物和植物等真核生物也显示出泛基因组的证据。 在已研究泛基因组的四种真菌中,80%至90%的基因模型被发现为核心基因。 其余辅助基因主要涉及发病机制和抗菌素耐药性[21]。
随着越来越多人关注泛基因体学,有更多的软件可以用来建立与分析泛基因体、绘图、注解。[22] [22]
2014 年底最高引用数的的软件为 [22]Panseq[23] 以及 pan-genome analysis pipeline(PGAP)[24]。其他的选择包含 BPGA - A Pan-Genome Analysis Pipepline for prokaryotic genomes、GET_HOMOLOGUES、Roary 与 CD-HIT[25] GET_HOMOLOGUES (页面存档备份,存于互联网档案馆) [26] or Roary (页面存档备份,存于互联网档案馆).[27] 。针对各家软件的比较,可以参照 2015 年的一篇文章。[22]
针对植物泛基因体的软件有 GET-HOMOLOGUES-EST[28] 。有关植物泛基因体可以参照 2015 的一篇文章[29]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.