基因组进化 是 基因组 的结构(序列)或大小随时间变化过程。 基因组进化的研究涉及多个领域,如基因组的结构分析,基因组寄生虫的研究,基因和古代基因组重复,多倍体和比较基因组学。由于原核生物和真核生物的基因序列是稳定增加的,故基因组进化是一个不断变化和发展的领域,况且这些基因序列可以从科学界和广大公众中获取。
此条目目前正依照其他维基百科上的内容进行翻译。 (2017年1月6日) |
历史
自从20世纪70年代末人类第一次获得基因组序列以来,[1] 科学家就一直在使用比较基因组学来研究各种基因组之间的差异和相似性。基因组测序已经成功地进行了包括越来越复杂的基因组研究,包括在2001年的整个人类基因组的最终测序。 [2]通过比较近亲和远距祖先的基因组,物种之间的明显差异性和相似性以及基因组随时间演化的机制开始出现。
原核和真核基因组
原核基因组有两个主要的进化机制:突变与水平基因转移[3]。第三种机制,在真核生物的有性繁殖中突显但在细菌中并没有发现,尽管原核生物可以通过细菌接合过程获得新的遗传物质,其中质粒和整个染色体可以在生物体之间传递。这个过程的一个常被引用的例子是利用质粒DNA转移抗生素抗性[4]。基因组进化的另一种机制通过转导提供,其中噬菌体将新的DNA引入细菌基因组。 细菌中的基因组进化被很好地理解,是因为我们能获得数千个完全测序的细菌基因组。由于适应性基因组的精简和纯化选择,遗传变化可能导致基因组复杂性的增加或减少。[5] 一般来说,自由生活的细菌已经发展出具有更多基因的更大基因组,使得它们可以更容易地适应变化的环境条件。相比之下,大多数寄生细菌具有相对少的基因组,因为它们的宿主提供许多(即使不是大多数)营养物,使得它们的基因组不需要编码产生这些营养物的酶[6] 。
性质 | 大肠杆菌基因组 | 人类基因组 |
---|---|---|
基因组大小(碱基对) | 4.6 Mb | 3.2 Gb |
基因组结构 | 环状 | 线性 |
染色体数目 | 1 | 46 |
存在质粒 | 是 | 否 |
存在组蛋白 | 否 | 是 |
基因数目 | 4,288 | 约20,000 |
存在内含子 | 否[7] | 是 |
平均基因大小 | 700 bp | 27,000 bp |
真核基因组通常大于原核生物。大肠杆菌基因组的长度大约为4.6Mb,[8] 相比之下,人类基因组要大得多,约为3.2Gb。[9] 真核基因组是线性的,并且可以由封装在细胞核中的多个染色体组成。基因的非编码部分,称为内含子,其大部分不存在于原核生物中,在蛋白质翻译发生之前通过RNA剪接除去。真核基因组随时间推移通过许多机制包括有性繁殖而演变,其向后代引入比原核生物复制过程更复杂的遗传多样性,其中后代理论上是亲代细胞的遗传克隆。
基因组大小
基因组大小通常以碱基对(或单链DNA或RNA中的碱基)来衡量。C值是基因组大小的另一种度量。原核基因组研究表明,原核生物的C值与构成基因组的基因数量之间存在显著的正相关。[10] 这表明基因数是影响原核基因组大小的主要因素。在真核生物中,有这样的一个矛盾,即构成基因组的基因的数量与基因组大小不相关。换句话说,基因组大小远远大于预期给定的蛋白质编码基因的总数。[11]
基因组大小可以通过重复,插入或多倍体来增加。重组可导致DNA损失或增加。基因组也可以由于缺失而收缩。这种基因衰减的一个著名例子是麻风分枝杆菌的麻风病原体的基因组。 由于假基因的形成,麻风杆菌已经失去了许多一次性功能基因。[12] 这也就证实了其最接近的是祖先结合分支杆菌。[13]麻风分枝杆菌在宿主内部生活和复制,并且由于这种安排,它不需要许多已经携带的基因,这允许它可以在宿主以外的环境中生存和繁殖。因此,随着时间的推移,这些基因通过诸如使其成为假基因的突变机制使其丧失了它们的功能。有机体摆脱非必需基因是有益的,因为它使得复制其DNA更快,需要更少的能量。[14]
在丝状植物病原体中看到了基因组大小随时间增加的实例。这些植物病原体基因组在过去几年中由于重复驱动的扩增而一直在增长。富含重复区含有编码与宿主相互作用的蛋白基因。随着向这些区域添加越来越多的重复,植物通过突变和其他形式的遗传重组增加了发展新的毒性因子的可能性。以这种方式,这些植物病原体具有更大的基因组是有益的。[15]
基因组进化的机制
基因复制是一种复制编码基因的DNA区域的过程。这可以作为重组中的错误或通过反转录事件的结果而发生。重复基因对通常存在于基因的选择压力是免疫的。这可导致在重复基因密码中累积大量突变。这可以使基因无功能或在一些情况下赋予生物体一些益处。[16][17]
类似于基因复制,全基因组复制是一个有机体的整个遗传信息被复制,一次或多次被称为多倍体的过程。[18] 这可以通过向生物体提供多个拷贝的基因,从而产生更多的功能和选择优选基因的可能性,从而为生物体提供进化上的益处。1997年,Wolfe&Shields为酿酒酵母(酵母)基因组的原始重复提供了证据。 [19]最初指出,这种酵母基因组包含许多个别基因重复。Wolfe&Shields假设这实际上是酵母远处进化历史中整个基因组重复的结果。他们发现32对同源染色体区,占酵母基因组的一半以上。他们还指出,尽管同源物存在,但它们通常位于不同的染色体上。 基于这些观察,他们确定酿酒酵母在其从克鲁维酵母属,子囊菌属酵母属的进化分裂之后很快经历了全基因组重复。 随着时间的推移,许多复制基因被删除并且变得无作用。许多染色体重排将原始的重复染色体打破成同源染色体区域的当前现状。 这个想法进一步巩固了在酵母的近亲棉阿舒囊霉的基因组。[20] 全基因组复制在真菌以及植物物种中是常见的。极端基因组复制的一个例子是由大米草(Spartina anglica)表示的,它是一种十二倍体,意味着它含有12组染色体,[21] 与人类二倍体结构形成鲜明对比,其中每个个体只有两组23染色体。
转座子是可以通过以下两种机制自我转移位置的DNA片段。这些机制与文字处理程序中的“剪切-粘贴”和“复制-粘贴”功能类似。“剪切-粘贴”机制通过从基因组中的一个位置切除DNA并将其自身插入到序列的另一个位置来工作。“复制-粘贴”机制通过复制DNA的特定区域形成拷贝并将这些拷贝插入序列中的其他地方来工作[22][23]。人类基因组中最常见的可转座因子是Alu序列,其在基因组中存在超过一百万次。[24]
自发突变常常发生,其可以引起基因组中的各种变化。突变可以改变一个或多个核苷酸的身份,或导致一个或多个核苷酸碱基的添加或缺失。这种变化可能导致移码突变,导致整个代码以与原始序列不同的顺序读取,通常导致蛋白质变得无作用[25]。启动子区、增强子区或转录因子结合区中的突变也可导致这些调节元件靶向的基因的转录中的功能丧失或上调或下调。突变在生物体的基因组中不断发生,并且可能导致负效应,正效应或中性效应(根本没有效果)。[26][27]
假基因由相关的基因失去其功能而来,通常是基因突变的结果。有许多造成假基因的机制,比如在功能基因缺失或插入一个或多个核苷酸,可以造成阅读框的偏移,使基因不再编码原先的蛋白,或者提前引入终止密码子以及在启动子区域的突变等等[28]。在人类基因组中最常提到的假基因的例子是嗅觉相关的基因家族。随着时间的流逝,人类基因组中的许多嗅觉基因变为假基因不再生成蛋白,从而使人类的嗅觉能力远低于其它哺乳动物。[29][30]
外显子重排是新基因产生的又一种机制,可发生在拥有两个或更多外显子的基因之间,或在外显子复制之时。 外显子重排通过改变当前的内含子 - 外显子结构而产生新的基因。这可以通过任何以下过程发生:转座因子媒介的重排、性重组或非同源重组(也称为非正式重组)。外显子重排可以将新基因引入基因组,其可以选择针对和缺失或选择性地倾向和保守。.[31][32][33]
当许多物种不再需要它们的基因的子集时,便会呈现出基因组减少的状态。 这通常在有机体适应寄生生活方式时发生,例如:当它们的营养物由宿主提供时。因此,它们丢弃产生这些营养物所需的基因。在许多情况下,自由生活物种和寄生物种可以相互比较同时确定他们失去的基因。好的实例是结核分枝杆菌和麻风分枝杆菌的基因组,后者的基因组显着降低。
另一个好的例子是内共生体物种。例如,多核杆菌必须首先被描述为细胞质的游仆虫的细胞质内共生菌。在不存在必需氨基酸的少数情况下,不同的和更罕见的细菌显然提供相同的功能。尝试在他们的宿主外生长共生的必需氨基酸尚未成功,就明显地表明这种关系对于两者都是必须的。然而,已确定密切相关的自由生活亲缘关系与其自由生活亲缘相比(1.56Mbp对2.16Mbp),内共体具有显著降低的基因组。[34]
基因组进化与物种形成
进化生物学的一个主要问题是基因组如何改变以创造新物种。物种形成需要行为, 形态, 生理, or 代谢(或其组合)的变化。在物种形成过程中基因组的进化只在最近才得到新一代测序技术的研究。 例如,非洲湖中的丽鱼在形态上和行为上都不同。5种物种的基因组已经揭示了序列以及许多基因的表达模式在相对短的时间(100,000至几百万年)内快速改变。值得注意的是,20%的重复基因对获得了一个完全新的组织特异性表达模式,表明这些基因也获得了新的功能。 假定基因表达由短调节序列驱动,这表明需要相对少的突变来驱动物种形成。丽鱼基因组还表明在参与基因表达的微小RNA中的进化速度增加。 [35][36]
基因表达
突变可导致基因功能的改变,或者可能更经常地导致基因表达模式的改变。事实上,对12种动物物种的研究为其提供了强有力的证据,组织特异性基因表达在不同物种的直系同源物之间大部分保守。然而,同一物种内的旁系同源物之前通常具有不同的表达模式。 也就是说,在基因复制后,经常改变它们的表达模式,例如通过在另一组织中表达并因此采用新的功能。[37]
核苷酸组成(GC含量)
遗传密码由四个核苷酸碱基的序列组成:腺嘌呤,鸟嘌呤,胞嘧啶和胸腺嘧啶,通常称为A,G,C和T。GC含量是基因组内G&C碱基的百分比。不同生物体之间的GC含量差异很大。 [38] 基因编码区已显示具有较高的GC含量,并且基因越长,存在的G和C碱基的百分比越大。更高的GC含量赋予了益处,因为鸟嘌呤 - 胞嘧啶键由三个氢键组成,而腺嘌呤 - 胸腺嘧啶键仅由两个组成。 因此,三个氢键给予DNA链更大的稳定性。因此,重要的基因通常具有比生物体基因组的其他部分更高的GC含量也就不足为奇。[39] 由于这个原因,许多生活在非常高的温度的物种,例如围绕热液喷口的生态系统,具有非常高的GC含量。在调节序列例如表示基因起始的启动子中也观察到高GC含量。许多启动子含有CpG岛,基因组的区域,其中胞嘧啶核苷酸以较大比例在鸟嘌呤核苷酸旁边出现。 还表明,属中物种之间的GC含量的广泛分布显示更古老的祖先。由于物种有更多的时间进化,它们的GC含量发生了进一步的分化。[40]
遗传密码的进化翻译
氨基酸由三个碱基长密码子组成,并且甘氨酸和丙氨酸的特征在于在前两个密码子碱基位置处具有鸟嘌呤 - 胞嘧啶键的密码子。 这种GC键给予DNA结构更多的稳定性。 已经假设,由于第一生物在高热和压力环境中进化,它们需要这些GC键在其遗传密码中的稳定性。
基因的从头起源
新基因可来自非编码DNA。例如,Levine及其同事报道了来自非编码DNA的黑腹果蝇基因组中5个新基因的起源。 [41][42] 随后,基因的新生起源也在其他生物体中显示,如酵母,[43] 水稻水稻[44] 和人类。[45]例如,吴等人。(2011)报道了60个推定的新的人特异性基因,所有这些基因都是短的,包括单个外显子(除了一个外)。[46]
参考文献
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.