人类基因组计划 (英语:Human Genome Project ,缩写 :HGP )是一项规模高,跨国跨学科的科学探索巨型工程 。其宗旨在于测定组成人类染色体 (指单倍体 )中所包含的六十亿对组成的核苷酸 序列,从而绘制人类基因组 图谱,并且辨识其载有的基因 及其序列,达到破译人类遗传信息的最终目的。基因组计划是人类为了探索自身的奥秘所迈出的重要一步。截至2005年,人类基因组计划的测序 工作已经基本完成(92%)。其中,2001年人类基因组工作草图的发表(由公共基金资助的国际人类基因组计划和私人企业塞雷拉基因组公司 各自独立完成,并分别公开发表)被认为是人类基因组计划成功的里程碑。大多数政府资助的测序是在美国,英国,日本,法国,德国和中国的20所大学和研究中心进行[ 1] 。
此条目
需要补充更多来源 。
(2015年2月28日 )
徽标,取自达芬奇的维特鲁威人
美国能源部 人类基因组计划 徽标
国际人类基因组计划的启动的重要原因是美国能源部 的推动。1984年,在美国犹他州 的Alta,由美国政府资助的旨在讨论日益发展的DNA重组 技术的会议上,科学家们第一次讨论了人类基因组测序的价值。[ 2] 而首次对于人类基因组测序的可行性进行认真的探讨是在1986年由罗伯特·辛舍梅 (Robert Sinsheimer)主持的会议上。[ 3] 与会者的发言:“这计划(人类基因组启动计划)的最终目标是了解人类基因组”,“就像了解人类身体构造 对于目前医学 发展的贡献,对人类基因组的了解将对医学和其他健康科学研究提供必不可少的支持”。随后,美国健康与环境研究项目主任查尔斯·德利斯 决定对人类基因组启动计划进行资助,用于发展关键性技术与资源。[ 4] [ 5] [ 6]
1988年,人类基因组计划再次得到显著的推动,DNA双螺旋结构 的发现者和诺贝尔生理学或医学奖 的获得者詹姆斯·沃森 领导着美国国家卫生研究院 中新成立的研究中心,加入了这个计划。对于人类基因组计划,沃森的评价是:“不尽快将它(人类基因组计划)完成将是非常不道德”,[ 7] “能让我的科学生涯从双螺旋(指的是组成人类染色体的单倍体中的核苷酸序列组成)跨越到人类基因组是我的荣幸”。[ 8] 但1992年沃森于该计划的领导角色被弗朗西斯·柯林斯 取代。
1990年,人类基因组计划由美国能源部和国家卫生研究院投资,预期在15年内完成。随后,该计划扩展为国际合作的计划,英国 、日本 、法国 、德国 和中国 先后加入,形成了国际基因组测序联盟 。为了协调各国人类基因组研究,1988年在维克多·马克库斯克 等科学家的倡导下,国际人类基因组组织 (HUGO)宣告成立。[ 4]
在国际人类基因组计划(以下简称“国际计划”)启动八年后的1998年,美国科学家克莱格·文特尔 创办了一家名为塞雷拉基因组(Celera Genomics)的私立公司,邀聘具基因测序之父的陈奕雄 博士担任首席科学家,开展独立的人类基因组计划。与国际人类基因组计划相比,该公司希望能以更快的速度和更少的投资(3亿美元,仅为国际计划的十分之一)来完成此项工程。塞雷拉基因组的另起计划被认为对人类基因组计划是一件好事,因为塞雷拉基因组的竞争促使国际人类基因组计划不得不改进其策略,进一步加速其工作进程,使得人类基因组计划得以提前完成。
基于对基因结构的了解及对电子机具的认识,陈奕雄 博士的团队采用了更快速同时更具风险的技术全基因组霰弹枪测序法 ,进而创造出全世界第一台全自动测序仪ABI3600。霰弹枪测序法的思想是将基因组打断为数百万个DNA片段,然后用一定的算法 将片段的序列信息重新整合在一起,从而得到整个基因组序列。为了提高这一方法的效率,1990年代,测序和片段信息整合达到了自动化。这一方法虽然已被用于序列长达6百万个碱基对的细菌基因组测序,但对于人类基因组中30亿碱基对的序列测定,这一技术能否成功在当时还未有定论。
塞雷拉基因组一开始宣称只寻求对200至300个基因的专利权 保护,但随后又修改为寻求对“完全鉴定的重要结构”的总共100至300个靶基因进行知识产权 保护。1999年,塞雷拉申请对6500个完整的或部分的人类基因进行初步专利保护;批评者认为这一举动将阻碍遗传学研究。[ 9] 此外,塞雷拉建立之初,同意与国际计划分享数据,但这一协定很快就因为塞雷拉拒绝将自己的测序数据存入可以自由访问的公共数据库GenBank 而破裂。虽然塞雷拉承诺根据1996年百慕大协定 每季度发表他们的最新进展(国际计划则为每天),但不同于国际计划的是,他们不允许他人自由发布或无偿使用他们的数据。
2000年,经美国国家卫生研究院院长科林斯与赛雷拉公司集团协调后,由美国总统克林顿 牵着两个团队领导人的手,宣布人类基因体计划完成,其所有人类基因组数据为人类共同财富,不允许专利保护,且必须对所有研究者公开,[ 10] 塞雷拉最后决定将数据公开。但这一事件也导致塞雷拉的股票价格一路下挫,并使倚重生物技术股的纳斯达克 指数受到重挫。
人类基因组计划的分阶段目标如下[ 6] :
遗传图谱 的绘制 。遗传图谱主要是用遗传标签来确定基因在染色体上的排列。1994年9月,完成了包含3000个(原计划为600-1500)标签分辨率为1-cM(即1%重组率)的遗传图谱的绘制。
物理图谱 的绘制 。物理图谱是通过序列标签位点 对构成基因组的DNA分子进行测定,从而对某基因所相对之遗传讯息及其在染色体上的相对位置做一线性排列。1998年10月,完成了包含52,000个(原计划为30,000)序列标签位点的物理图谱的绘制。
序列测定 。通过测序得到基因组的序列,是一般意义上的人类基因组计划。2003年4月,包含基因序列中的98%(原预计为95%)获得了测定,精确度为99.99%。
辨别序列中的个体差异 。每一个人都有唯一的基因序列,因此,人类基因组计划发布的数据不可能精确的反映单独个体的基因序列。它只是很少量匿名捐赠人基因组的组合。人类基因组计划只是为未来鉴定不同个体间基因组差异做一些基础的框架性工作。当前主要工作在于鉴定不同个体间包含的单核苷酸多态性 。至2003年2月,已有约3,700,000个单核苷酸多态性位点得到测定。
基因鉴定 。以获得全长的人类cDNA 文库为目标。至2003年3月,已获得15,000个全长的人类cDNA文库。人类基因组计划最开始的目标是不但以最小的错误率检测出人类基因的所有30亿个碱基对,还要从如此海量的数据中确认出所有的基因及其序列。这一部分计划正在进行中,尽管目前的数据显示在人类基因组中只有大约20,000至25,000个基因,远远低于大多数科学家先前的估计。
基因的功能性分析 。今天,人类DNA 序列已经存储在数据库 中,任何人都可以通过互联网 下载。美国国家生物技术信息中心 和位于欧洲和日本的姊妹组织储存着整个基因序列,其中包含已知序列,假设基因和蛋白质。其他组织像加州大学圣塔克鲁斯分校 和ENSEMBL提供附加数据,注释和观察和检索数据的有力工具。用已开发的计算机程序 来分析数据,因为未经过译码的数据基本上没有用处。而这一过程将要耗费大量的时间。对未加工的DNA数据,其中已知基因的位置的标注被称为注释序列 (annotation),对注释序列进行分析工作属于生物信息学 的范畴。如果只由有经验的生物学家对海量的数据进行标注,经常是非常缓慢的,所以一些特定的对DNA 序列进行判别的计算机程序 正被越来越多地应用在基因排序工程中。当前,分析注释序列的最佳技术是利用DNA序列和人类语言 之间并行性的统计模型,采用类似于计算机科学中形式文法 的概念。但是,使用自动标注的注释的准确度仍然不够理想。而且计算机程序 的自动判定会复制已有注释中的错误,从而使错误越来越多。对于这些错误的纠正是一个非常巨大的工程。这一阶段的另一个目标是研发出更快更有效的方法来进行DNA测序 和序列分析 ,并把这一技术加以产业化。已获得开发的技术包括高通量寡聚核苷酸的合成(1994年)、DNA微阵列 (1996年)、标准化和消减化cDNA文库(1996年)、真核(酵母 )全基因组敲除技术(1999年)、大型化双杂交 定位(2002年)。
国际计划的资金主要来源于美国国家卫生研究院和英国慈善机构威康信托基金会 ,后者资助了位于英国的桑格研究中心 和其他一些国家的研究机构。
国际人类基因组测序联盟的所用于测序的基因组取样于一大批捐献者的血液 和精子 。只有少量的样品被用做DNA测序,又由于捐献者的身份是保密的,因此无论是捐献者或是科学家都不知道用于测序的DNA是来自哪些人。来自不同文库 的DNA被克隆 后用于整个计划,大多数文库由彼得·杨(Pieter J. de Jong)博士完成。科学家使用来自于两名男性和两名女性(捐献者中随机选出)的血液中的白细胞 ,从中取得分离的DNA文库。由于质量较高,文库之一的RP11被较多地使用。有非正式的报道(在基因组计划的团体内部也盛行的说法)指出用于国际基因组计划的大部分DNA来自于住在纽约州 布法罗 的一名男性捐献者(编号为RP11)。[ 11]
塞雷拉基因组计划使用的DNA样品来源于五名捐献者。塞雷拉基因组的首席科学家克莱格·文特尔 在一篇写给《科学 》杂志的公开信中承认他本人是捐献者之一。[ 12]
在国际计划中,基因组被分割成多个片断(长度接近150,000个碱基对)。由于这些片断能被插入细菌中,并利用细菌的DNA复制 机器进行复制,因此被称为细菌人工染色体 。通过对每一个这样的片断分别应用“霰弹枪测序法”,最终将这些片断通过配对末端法(pair-end)以及其他许多定位数据重新组装在一起从而获得完整的基因组。[ 13] 这一手段是先将基因组分成相对较大的片断,并且在对片断进行测序前将其定位到每条染色体对应位置,所以被称为“分级霰弹枪测序法”。
塞雷拉基因组尝试用全基因组霰弹枪测序法并且没有使用附加的定位拼接。[ 14] 但他们由于利用了少量的公共数据来完成计划而招致他人诟病。[ 15]
关于如何界定人类基因组测序完成,有多种定义。根据不同的定义,人类基因组的测序是否完成有不同的看法。曾有多个大众媒体报道人类基因组计划“完成”,而且由国际人类基因组计划所采用的定义,基因组的测序已经完成。有统计数据显示,[ 16] 截至2003年底,绝大部分的人类基因组已获得测定;但基因组中仍有许多的区域未获得测序。这其中的首要原因是在每条染色体的中心区域(称为着丝粒 )含有大量重复DNA序列,用目前的技术进行测序的难度较大。着丝粒含有数百万(可能接近千万)的碱基对,其中的大多数完全没有得到测序。第二个原因是在染色体末端区域(称为端粒 )同样含有高度重复的DNA序列。而且在46条染色体中,其末端大都不完整,因此无法精确地知道在端粒前还有多少序列;与着丝粒 的情况类似,目前的技术很难测定这些序列。第三个原因是在每个人的基因组中都含有多个包含多基因家族成员的位点,这些位点的测序问题用霰弹枪测序法 难以解决,而包含于这些位点中的多基因家族成员往往编码具有重要免疫 功能的蛋白质 。对于前两个原因,可以通过发展新的技术来解决测序问题。除了以上区域,还有一些间隙散布于基因组中,部分间隙较大,但有希望在数年内解决。总而言之,对于全基因组的大小的估计显示了92%的基因组已经获得测定,余下的高度重复的DNA序列不大可能含有基因,但在完成所有的测序之前,没有什么是确定无误的。
该项目无法对所有人类细胞中发现的DNA进行测序。它只对基因组的真染色质 区域进行测序,这些区域占人类基因组的92.1%。其他的区域称为异染色质 ,发现于着丝粒 和端粒 中,而该计划并未对此测序[ 17] 。人类基因组计划(HGP)于2003年4月宣布完成。人类基因组的初步草图于2000年6月问世,到2001年2月完成并发表了工作草案,随后在2003年4月14日完成了人类基因组的最终测序。虽然有报导称,该方法覆盖了99%的全色人类基因组,准确率为99.99%,但2004年5月27日发表的一份对人类基因组序列的主要质量评估显示,超过92%的样本的准确率超过了99.99%,达到了预期目标[ 18] 。关于HGP的进一步分析和论文不断出现[ 19] 。2009年3月,基因组参考联盟(GRC)发布了一个更精确的人类基因组版本,但仍有300多个漏洞。截至2019年6月,GRC仍指出89个“未解决”的漏洞,其中大多数被标注为“暂停”或“正在调查/审查中”[ 20] 。
2000年6月26日,美国总统克林顿 与英国首相布莱尔 共同宣布人类基因组计划工作草图完成;[ 21] 次年2月,工作草图的具体序列信息、测序所采用的方法以及序列的分析结果被国际人类基因组测序联盟和塞雷拉基因组的科学家分别公开发表于《自然 》与《科学 》杂志。[ 13] [ 14] 这一工作草图覆盖了基因组序列的83%,包括常染色质 区域的90%(带有150,000个空缺,且许多片断的顺序和方位并没有得到确定)。
1999年至2006年,完成了全部24条染色体的测序工作,具体如下:
1999年12月,22号染色体测序完成;[ 22]
2000年5月,21号染色体测序完成;[ 23]
2001年12月,20号染色体测序完成;[ 24]
2003年2月,14号染色体测序完成;[ 25]
2003年6月,男性特有的Y染色体测序完成;[ 26]
2003年5月和7月,7号染色体测序完成;[ 27] [ 28]
2003年10月,6号染色体测序完成;[ 29]
2004年4月,13号和19号染色体测序完成;[ 30] [ 31]
2004年5月,9号和10号染色体测序完成;[ 32] [ 33]
2004年9月,5号染色体测序完成;[ 34]
2004年12月,16号染色体测序完成;[ 35]
2005年3月,X染色体测序完成;[ 36]
2005年4月,2号和4号染色体测序完成;[ 37]
2005年9月,18号染色体测序完成;[ 38]
2006年1月,8号染色体测序完成;[ 39]
2006年3月,11号,12号和15号染色体测序完成;[ 40] [ 41] [ 42]
2006年4月,17号和3号染色体测序完成;Human Genome Project Information[1] (页面存档备份 ,存于互联网档案馆 )
2006年5月,1号染色体测序完成;Human Genome Project Information[2] (页面存档备份 ,存于互联网档案馆 )
2004年,国际人类基因组测序联盟的研究者宣布,人类基因组中所含基因的预计数目从先前的30,000至40,000(在计划初期的预计数目则高达2,000,000)调整为20,000至25,000。预期还需要多年的时间来确定人类基因组中所含基因的精确数目。
破译人类遗传信息,将对生物学,医学,乃至整个生命科学产生无法估量的深远影响。目前基因组信息的注释工作仍然处于初级阶段。随着将来对基因组的理解更加深入,新的知识会使医学 和生物技术 领域发展更为迅速。基于DNA载有的信息在细胞生命活动中的指导作用,在分子生物学 水平上深入了解疾病的产生过程将大力推动新的疗法和新药的开发研究。对于癌症 、老年痴呆症 等疾病的病因研究也将会受益于基因组遗传信息的破解。事实上,在人类基因组计划完成之前,它的潜在使用价值就已经表现出来。大量的企业,例如巨数遗传公司 开始提供价格合宜,而且容易使用的基因检测 ,其声称可以预测包括乳腺癌 、凝血 、纤维性囊肿 、肝脏 疾病在内的很多种疾病。[ 43] 。
此外,人类基因组计划将促成医学界的“个人化制药”的发展。对病人的整个基因序列的了解有助于医疗人员相应地提供最适合有效的帮助。的确,发展DNA科技将使得复制病人的基因组成本降低,相应的检查费用也会大大减少。
人类基因组计划对许多生物学研究领域有切实的帮助。例如,当科研人员研究一种癌症时,通过人类基因组计划所提供的信息,可能会找到某个,或些相关基因。如果在互联网 上访问由人类基因组信息而建立的各种数据库,可以查询到其他科学家相关的文章,包括基因的DNA ,cDNA 碱基顺序,蛋白质 立体结构 、功能,多态性,以及和人类其他基因之间的关系。也可找到和小鼠 、酵母、果蝇 等对应基因的进化 关系,可能存在的突变及相关的信号传导机制。人类基因组计划对与肿瘤相关的癌基因 ,肿瘤抑制基因 的研究工作,起到了重要的推动作用。
分析不同物种的DNA序列的相似性会给生物进化 和演变的研究提供更广阔的路径。事实上,人类基因组计划提供的数据揭示了许多重要的生物进化史上的里程碑事件。如核糖体 的出现,器官 的产生,胚胎 的发育,脊柱 和免疫系统 等都和DNA载有的遗传信息有密切关系。
人类遗传信息也为考古学,犯罪学以及社会执法提供了极大的帮助。例如,分子人类学家通过母系遗传的线粒体DNA以及父系遗传的染色体Y确定了非洲确实是人类起源的摇篮。DNA证明了早在6万年前人类始祖便从非洲大陆迁徙到其他大洲的事实;大陆之间数列的异同也使得分子系统学家了解家族及个人的家谱关系。此外,通过收录已知犯人的DNA序列,有关政府加速了判别及震慑罪犯的措施。此执法方式被证明十分有成效但也常因迅速误判无辜嫌疑人而饱受争议。
模式生物 (包括小鼠、果蝇、线虫 、斑马鱼 、酵母等)的基因组计划。
人类元基因组计划 :对人体内所用共生菌群的基因组进行序列测定,并研究与人体发育和健康相关基因的功能。
国际人类基因组单体型图计划 (简称HapMap计划):目标是构建人类DNA序列中多态位点的常见模式。由于每个个体(除了孪生 子和克隆 动物)的基因组都有独特之处,因此有必要对个体之间的差异在基因组上进行定位。其完成将为研究人员确定对人类健康和疾病以及对药物和环境反应有影响的相关基因提供关键信息。
人类基因组多样性研究计划 :对不同人种 、民族 、人群 的基因组进行研究和比较。这一计划将为疾病监测、人类的进化研究和人类学研究提供重要信息。
(英文) Barnhart, Benjamin J. DOE Human Genome Program . Human Genome Quarterly. 1989, 1 : 1 [2005-04-20 ] . (原始内容存档 于2012-04-20). Retrieved 2005-02-03.
(英文) Collins, F.S., Morgan, M., Patrinos, A. The Human Genome Project: Lessons from Large-Scale Biology. Science. 2003, 300 : 286–290.
(英文) Kennedy D. Not wicked, perhaps, but tacky. Science. 2002, 297 : 1237. PMID 12193755 .
Schmutz, Jeremy; Wheeler, Jeremy; Grimwood, Jane; Dickson, Mark; Yang, Joan; Caoile, Chenier; Bajorek, Eva; Black, Stacey; Chan, Yee Man; Denys, Mirian; Escobar, Julio; Flowers, Dave; Fotopulos, Dea; Garcia, Carmen; Gomez, Maria; Gonzales, Eidelyn; Haydu, Lauren; Lopez, Frederick; Ramirez, Lucia; Retterer, James; Rodriguez, Alex; Rogers, Stephanie; Salazar, Angelica; Tsai, Ming; Myers, Richard M. Quality assessment of the human genome sequence. Nature. 2004, 429 (6990): 365–368. Bibcode:2004Natur.429..365S . PMID 15164052 . doi:10.1038/nature02390 .
(英文) Dunham I.; et al. The DNA sequence of human chromosome 22. Nature. 1999, 402 : 489–495.
(英文) Hattori M.; et al. The DNA sequence of human chromosome 21. Nature. 2000, 405 : 311–319.
(英文) Deloukas P.; et al. The DNA sequence and comparative analysis of human chromosome 20. Nature. 2001, 414 : 865–871.
(英文) Heilig R.; et al. The DNA sequence and analysis of human chromosome 14. Nature. 2003, 421 : 601–607.
(英文) Skaletsky H.; et al. The male-specific region of the human Y chromosome is a mosaic of discrete sequence classes. Nature. 2003, 423 : 825–837.
(英文) Scherer SW; et al. Human chromosome 7: DNA sequence and biology. Science. 2003, 300 : 762–772.
(英文) Hillier LW; et al. The DNA sequence of human chromosome 7. Nature. 2003, 424 : 157–164.
(英文) Mungall AJ; et al. The DNA sequence and analysis of human chromosome 6. Nature. 2003, 425 : 805–811.
(英文) Dunham A; et al. The DNA sequence and analysis of human chromosome 13. Nature. 2004, 428 : 522–528.
(英文) Grimwood J; et al. The DNA sequence and biology of human chromosome 19. Nature. 2004, 428 : 529–535.
(英文) Humphray SJ; et al. The DNA sequence and analysis of human chromosome 9. Nature. 2004, 429 : 369–374.
(英文) Deloukas P; et al. The DNA sequence and comparative analysis of human chromosome 10. Nature. 2004, 429 : 375–381.
(英文) Schmutz J; et al. The DNA sequence and comparative analysis of human chromosome 5. Nature. 2004, 431 : 268–274.
(英文) Martin J; et al. The DNA sequence and analysis of duplication-rich human chromosome 16. Nature. 2004, 432 : 988–994.
(英文) Ross MT; et al. The DNA sequence of the human X chromosome. Nature. 2005, 434 : 325–337.
(英文) Hillier LW; et al. Generation and annotation of the DNA sequences of human chromosomes 2 and 4. Nature. 2005, 434 : 724–731.
(英文) Nusbaum C; et al. DNA sequence and analysis of human chromosome 18. Nature. 2005, 437 : 551–555.
(英文) Nusbaum C; et al. DNA sequence and analysis of human chromosome 8. Nature. 2006, 437 : 331–335.
(英文) Taylor TD; et al. Human chromosome 11 DNA sequence and analysis including novel gene identification. Nature. 2006, 440 : 497–500.
(英文) Scherer SE; et al. The finished DNA sequence of human chromosome 12. Nature. 2006, 440 : 346–351.
(英文) Zody MC; et al. Analysis of the DNA sequence and duplication history of human chromosome 15. Nature. 2006, 440 : 671–675.