基因组(genome)又称基因体,在生物学中,是指某一特定物种细胞内或病毒粒子内的一整套遗传物质(DNA或RNA)。基因组包括基因编码区)和非编码区(ncDNA 或 ncRNA),以及线粒体DNA、叶绿体DNA。1920年,德国汉堡大学植物学教授汉斯·温克勒(Hans Winkler)首次使用基因组这一名词。

由46条染色体组成一个人类男性的二倍体基因组的图像。 (在线粒体染色体不显示。)

更精确地讲,一个生物体的基因组是指一套染色体中的完整的DNA序列。例如,生物个体体细胞中的二倍体由两套染色体组成,其中一套DNA序列就是一个基因组。基因组一词可以特指整套DNA(例如,核基因组),也可以用于包含自己DNA序列的细胞器基因组,如粒线体基因组或叶绿体基因组。

当人们说一个有性生殖物种的基因组正在测序时,通常是指测定一套常染色体和两种性染色体的序列,这样来代表可能的两种性别。即使在只有一种性别的物种中,“一套基因组序列”可能也综合了来自不同个体的染色体。通常使用中,“遗传组成”一词有时在交流中即指某特定个体或物种的基因组。对相关物种全部基因组性质的研究通常被称为基因组学,该学科与遗传学不同,后者一般研究单个或一组基因的性质。

基因组的种类

大部分生物体比病毒复杂,除了染色体,有时或总是包含额外的遗传物质。某些情况下,比如对致病微生物的基因组测序,这里基因组就包含了在质粒中的遗传物质。在这种情况下基因组就包含了所有的基因和非编码DNA。

而对于像人类这样的脊椎动物,基因组通常指的只是染色体DNA。因此,尽管人类线粒体里包含了基因,但这些基因并不作为基因组的一部分。事实上,有时候称线粒体拥有自己的基因组,通常叫做线粒体基因组

基因组和遗传变异

必须指出仅有一个基因组并不能获得物种的遗传差异或遗传多态性。例如,原则上讲,人类基因组序列可以仅仅从某个个体的一个细胞的一半DNA中测定。要知道是哪些DNA变异导致特定性状或疾病则需要进行个体间比较。这一点也解释了通常使用“基因组”(与通常使用“基因”相提并论)不仅仅指某特定DNA序列,也指某物种整个家族的序列。

尽管这个概念看上去与直觉相抵触,其实这与说没有任何一个特定的形状是印度豹的形状是相同的概念。印度豹形状各异,它们的基因组序列也并不相同。然而各动物个体和它们的序列都有共性,因此可以从单一实例中来了解印度豹和“豹性”。

测序与作图

在1976年,比利时根特大学瓦尔特·菲尔斯英语Walter Fiers第一个完成了一个基因组的完整测序——RNA病毒噬菌体MS2英语Bacteriophage MS2的基因组。次年,弗雷德里克·桑格完成了Φ-X174噬菌体英语Phi X 174的测序,这是第一个完成测序的DNA基因组,全基因组只有5386个碱基对[1]。在20世纪90年代中期,生物三域的第一个全基因组测序在很短一段时间内陆续完成。第一个被测序的细菌基因组是流感嗜血杆菌(Haemophilus influenzae),由克雷格·文特尔团队于1995年完成。几个月以后,第一个真核生物基因组的测序也由欧洲科学家完成了。它是一种带有16个染色体的芽殖酵母——酿酒酵母(Saccharomyces cerevisiae),其测序工作开始于80年代中期。很快地在1996年,第一个古菌基因组——詹氏甲烷球菌英语Methanocaldococcus jannaschii(Methanococcus jannaschii)基因组也被测序,同样由克雷格·文特尔团队完成。

新技术的发展使得测序成本快速地下降,测序耗时也显著减少,完成全基因组测序的生物越来越多。其他基因组计划包括小鼠水稻拟南芥河豚和细菌(如大肠杆菌)等皆被完成测序。1990年启动的人类基因组计划旨在对人类基因组绘制物理图谱测序[2][3]

新的测序技术,如大规模并行测序英语massive parallel sequencing也开辟了个人基因组测序作为一种诊断工具的前景。其中标志性的一步是2007年完成了对DNA双螺旋结构的发现者之一詹姆斯·杜威·沃森个人的基因组的测序[4]。而测序费用也一直在降低,可能最终测序单个基因组只需要几千美元

Thumb
提交到GenBank中的各物种的基因组大小与已注释的蛋白质总数对比的双对数坐标图,绿色:病毒基因组; 蓝色:细菌基因组, 紫色 :古菌基因组; 橙色:真核基因组

基因组构成

“基因组构成”(Genome composition)用于描述成一个单倍体基因组的组成,包括基因组大小非重复DNA重复DNA所占的比重等。通过不同基因组间的比较研究,科学家可以更好地理解给定基因组的进化史。

当讨论基因组的构成时,首先要区别的是原核基因组还是真核基因组,两者在基因组组成上有很大的不同。在原核生物中,基因组的大部分(85-90%)都是非重复DNA,这意味着其中主要的都是编码DNA,非编码区域只占了一小部分[5]。与之相反,真核生物的蛋白质编码基因有着外显子-内含子的结构特点,而且存在大量丰富的重复DNA序列。特别是哺乳动物和植物中,基因组的大部分都由重复DNA构成[6]

大部分的生物体常常携带除位于染色体之外的遗传物质,在有的情况下,例如对致病微生物的基因组测序,“基因组”就包括了位于质粒的额外的遗传物质。在这种情况下,“基因组”描述的是所有基因以及有潜在功能的非编码DNA。

真核生物例如植物、原生生物和动物中,基因组含有特指位于染色体DNA上的信息的意思。所以,即使这些生物含有叶绿体或者线粒体,它们有自己的DNA,但这些DNA所携带的信息不被包括在基因组中,事实上,有时我们说线粒体含有自己的基因组,即“线粒体基因组”,而在叶绿体中的被称为“叶绿体基因组英语Chloroplast DNA”。

基因组大小

基因组大小是指一种生物单倍体基因组的全部DNA碱基对数。在原核生物和低等真核生物中,基因组大小与生物形态的复杂性基本呈正相关关系;但是在软体动物以及其它更高等的真核生物中,这种相关性就不存在了[6][7]。这一现象可能是由基因组中的重复DNA引起。

鉴于基因组如此复杂,一种研究策略就是使生物体在理论上可以生存的条件下减少基因组中的基因数目直至最小。对于单细胞生物和多细胞生物最小基因组的实验研究已经开展(见发育生物学),这些工作在体内in vivo)和体外in silico)进行[8][9]

这里列出了一些重要的或有代表性的基因组的大小,更多基因组大小的请见#参见

More information 类型, 生物 ...
类型 生物 学名 基因组大小(碱基对 所含基因数目
病毒 猪圆环病毒I型 1,759 已知最小的基因组[10]
病毒 猿猴病毒SV40 5,224 [11]
病毒 噬菌体Φ-X174 5,386 最早完成测序的DNA基因组[12]
病毒 人类免疫缺陷病毒HIV 9,749 [13]
病毒 噬菌体λ 48,502 常作为重组DNA的克隆载体。[14][15][16]
细菌 大肠杆菌 Escherichia coli 4.6Mb 4288 [17]
蓝细菌 原绿球藻 Prochlorococcus 1.7Mb 1884 已知最小的蓝细菌基因组[18][19]
变形虫 无恒变形虫 Amoeba dubia 670Gb 已知的最大基因组[20](但有争议)[21]
植物 贝母属一种 Fritillary assyriaca 130Gb
真菌 酿酒酵母 Saccharomyces cerevisiae 12.1Mb 6294 第一个测序的真核生物基因组,完成于1996年[22]
线虫 咖啡短体线虫 Pratylenchus coffeae 20Mb 已知最小的动物基因组[23]
线虫 秀丽隐杆线虫 Caenorhabditis elegans 100.3Mb 19000 第一个测序的多细胞生物基因组,完成于1998年12月[24]
昆虫 黑腹果蝇 Drosophila melanogaster 175Mb 13600 [25]
哺乳动物 小家鼠 Mus musculus 2.7Gb 20210 [26]
哺乳动物 Homo sapiens 3.2Gb 20000 [27][28]
鱼类 金娃娃(一种河豚 Tetraodon nigroviridis 385Mb 已知最小的脊椎动物基因组约为340Mb[29][30]-385Mb[31]
鱼类 石花肺鱼 Protopterus aethiopicus 130Gb 已知最大的脊椎动物基因组
Close

非重复DNA

非重复DNA的总长除以基因组大小即为非重复DNA比重。蛋白质编码基因和非编码RNA基因一般都是非重复的DNA[32]。而更大的基因组并不意味着更多的基因,随着高等真核生物的基因组大小的增加,非重复DNA的比重相应减少[6]

不同生物中的非重复DNA的比重会有很大不同,一些原核生物如大肠杆菌几乎只有非重复DNA,低等真核生物比如秀丽隐杆线虫黑腹果蝇的非重复DNA仍比重复DNA多[6][33],而更高等的真核生物的重复DNA比重超过了非重复DNA。在一些植物和两栖动物中,非重复DNA的比重不超过20%,成了基因组中的少数组分[6]

重复DNA

基因组中的重复DNA可大致分为两类:串联重复和散在重复[34]

串联重复

串联重复常由复制时的滑移英语Replication slippage不等位的交换英语Unequal crossing over基因转换英语gene conversion引起[35]微卫星卫星DNA是基因组中的串联重复序列[36]虽然串联重复序列在基因组中起很大作用,但是在哺乳动物基因组中却表现为散在重复序列。

散在重复

散在重复通常来自转座子反转录转座,但也包括蛋白质编码的基因家族与假基因。转座子是一类DNA序列,它们能够在基因组中通过转录或逆转录,在内切酶的作用下,在其他基因座上出现[5][37],被认为是高等真核生物的进化驱动力之一[38]。转座子可分为两大类:I型转座子(反转录转座子)和II型转座子(DNA转座子)[37]

基因组演化

基因组不仅仅是是生物基因的集合,对其研究和比较能获得生物演化信息的更多细节。一些基因组性质如“染色体数”(核型)、基因组大小、基因顺序、密码子偏好性英语codon usage biasGC含量能反映出现存生物的许多基因组演化信息。

基因复制在基因组形成过程中起重要作用。真核生物的基因组存在大量重复序列。按照不同重复频率,可分为高度重复序列、中度重复序列、低度重复序列。这些重复序列是生物多样性的基础。

基因水平转移常常用来解释亲缘关系很远的生物之间为什么会有很相近的基因。基因水平转移在微生物之间比较常见。另外,真核生物的核基因组中也有些从叶绿体线粒体转移来的基因。

基因组的次领域

参考文献

外部链接

参见

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.