全基因组定序 (Whole genome sequencing,WGS )是将一个生物的基因组 完整(或接近完整)定序 的流程。1990年代起陆续有生物的基因组被完整定序,最早被定序完成的生物为流感嗜血杆菌 (1995年),1996年首次有真核生物 (酿酒酵母 )被完整定序。2014年以后全基因组定序逐渐开始被用于临床用途[ 2] [ 3] [ 4] ,以病人基因组资讯决定其疗法,即个人化医疗 [ 5] 。2000年全基因体定序技术获《科学 》期刊选为该年的年度突破 [ 6] 。
霰弹枪定序法的流程图
显示基因定序结果的电泳图谱 [ 1]
流感嗜血杆菌为第一个被全基因组定序的生物
秀丽隐杆线虫为第一个被全基因组定序的多细胞生物(动物)
阿拉伯芥为第一个被全基因组定序的植物
1977年,弗雷德里克·桑格 的团队将ΦX174噬菌体 的基因组完整定序,长5368bp ,是第一个被完整定序的基因组[ 7] [ 8] [ 9] 。1990年代起测序技术逐渐成熟,开始被用于定序生物的完整基因组[ 10] 。第一个被完整定序的生物为流感嗜血杆菌 ,共长183万bp,于1995年由霰弹枪定序法 完成[ 11] ,随后有其他细菌 与古菌 的基因组陆续被以相同方法定序。真核生物 的基因组大小则大的多,因此定序较为困难,1996年酿酒酵母 的基因组定序完成,约长1200万bp,为第一个被完整定序的真核生物[ 12] ;1998年秀丽隐杆线虫 的基因组被完整定序,为第一个完成定序的多细胞真核生物[ 13] 。真核生物定序的方式除使用霰弹枪定序法外,还用到了细菌人工染色体 (BAC)、酵母菌人工染色体 (YAC)等基因文库 [ 14] 。
1999年人类22号染色体 (最短的体染色体 )被定序发表[ 15] ;2000年黑腹果蝇 的基因组被完整定序,为第二种被完整定序的动物[ 16] ,同年阿拉伯芥 的基因组定序也告完成,是第一个被完整定序的植物[ 17] 。2001年人类基因组计划 发表人类基因组 的定序草图(draft)[ 18] ,2003年宣告真染色质 的序列皆定序完成[ 19] [ 20] ,2021年发表定序程度达“完整”的基因组[ 21] [ 22] ;2002年小鼠 的基因组也被定序发表[ 23] 。目前已有上千种生物的基因组被完整定序。2005年起桑格测序 等传统的定序方法逐渐被Illumina染料定序 、焦磷酸测序 、SMRT定序 与奈米孔洞测序 等次世代定序 (NGS)技术取代(但仍使用霰弹枪定序法的策略,将基因组打碎成许多片段后分别完成定序,再进行组装)。[ 24] [ 25]
2001年至2019年一次人类全基因组定序的费用变化
已有许多公司尝试将全基因组定序商业化以作研究或临床用途[ 26] ,包括Illumina [ 27] 、Knome [ 28] 、Sequenom [ 29] 、454生物科学 [ 30] 、Pacific Biosciences [ 31] 、Complete Genomics [ 32] 、Helicos Biosciences [ 33] 、GE Global Research (通用电气 的研发部门)、Affymetrix 、IBM 、Intelligent Bio-Systems[ 34] 、Life Technologies、Oxford Nanopore Technologies [ 35] 与华大基因 等[ 36] [ 37] [ 38] 。2010年代晚期全基因组定序一次约要价1000美元,许多公司正试图将成本进一步降低[ 39] ,2017年华大基因的全基因组定序收费已降为一人600美元[ 40] ,2019年Veritas Genetics 也将费用降至一人599美元[ 41]
全基因组关联分析(GWAS)的结果(曼哈顿图 )示意图
在生医研究中,全基因组定序可被用于全基因组关联分析 (GWAS)以寻找基因组中与特定疾病相关的单核苷酸多态性 (SNP)位点[ 42] 。
全基因组定序在医疗上也有很大的应用价值,2009年Illumina即推出了用于临床医疗的全基因组分析套件,供医师在不知病人病因、传统疗法均效果不彰时使用[ 43] 。因近年来全基因组定序的费用大幅下降,其应用潜力也大幅增加。2011年布莱根妇女医院 与哈佛医学院 创立了Genomes2People(G2P)计画,旨在将基因定序整合进临床医疗[ 44] 。
人类全基因组定序可能伴随一些伦理议题,此技术虽有诊断出疾病的潜力[ 45] ,但也有造成基因歧视 、隐私外泄(特别是未成年人 的隐私[ 46] )与心理上负面影响之风险[ 47] 。另外当一个人接受全基因组定序时,除了自己基因组的资讯外,还可能得知其近亲的基因组资讯,进而推得他们过去、现在或未来的健康状况[ 48] ,因此接受定序者是否应与近亲分享定序的结果也是一伦理议题,若其带有一与某疾病相关的突变,却不愿与近亲分享此资讯,则医疗人员可能面临预防医疗与病人隐私的两难[ 45] 。科学研究中的全基因组定序也可能有隐私外泄的疑虑,因学术研究发表时通常需要将病人的基因型 的资讯发表到公开资料库,此资讯虽为匿名,但在疾病或突变相当罕见的情况下仍有可能使病人被认出[ 45] 。
最早被全基因组定序完成的人是克莱格·凡特 [ 49] [ 50] [ 51] 与詹姆斯·杜威·沃森 [ 52] [ 53] [ 54] ,于2007年完成(覆盖度 分别为7.5与7.4),2008年又有一名匿名的中国汉族 人(覆盖度为36)[ 55] 、奈及利亚 约鲁巴人 (覆盖度为30)[ 56] 、荷兰的女性遗传学家玛乔琳·克里克 (为首位基因组被完整定序的女性,覆盖度7至8)[ 57] [ 58] 与一高加索人种 的白血病 女性患者基因组被定序完成[ 59] 。史蒂夫·贾伯斯 为最早被全基因组定序的20人之一,有消息指其花费高达10万美元[ 60] 。截至2012年6月共有69个人接近完整的基因组序列资料向大众公开[ 61] 。2013年11月有一西班牙 家庭在接受23andMe 与华大基因定序后,将全家的全基因组序列以创用CC公有领域 授权条款公开,是第一个公开的家族全基因组序列资料[ 62] 。
Nones, K; Waddell, N; Wayte, N; Patch, AM; Bailey, P; Newell, F; Holmes, O; Fink, JL; Quinn, MC; et al. Genomic catastrophes frequently arise in esophageal adenocarcinoma and drive tumorigenesis . Nature Communications. 2014-10-29, 5 : 5224. Bibcode:2014NatCo...5.5224N . PMC 4596003 . PMID 25351503 . doi:10.1038/ncomms6224 .
van El, CG; Cornel, MC; Borry, P; Hastings, RJ; Fellmann, F; Hodgson, SV; Howard, HC; Cambon-Thomsen, A; Knoppers, BM; Meijers-Heijboer, H; Scheffer, H; Tranebjaerg, L; Dondorp, W; de Wert, GM. Whole-genome sequencing in health care. Recommendations of the European Society of Human Genetics . European Journal of Human Genetics. June 2013,. 21 Suppl 1: S1–5. PMC 3660957 . PMID 23819146 . doi:10.1038/ejhg.2013.46 .
Brownlee, George G. Frederick Sanger CBE CH OM. 13 August 1918 – 19 November 2013. Biographical Memoirs of Fellows of the Royal Society. 2015, 61 : 437–466. doi:10.1098/rsbm.2015.0013 .
al.], Bruce Alberts ... [et. Molecular biology of the cell 5th. New York: Garland Science. 2008: 551. ISBN 978-0-8153-4106-2 .
Fleischmann, R.; Adams, M.; White, O; Clayton, R.; Kirkness, E.; Kerlavage, A.; Bult, C.; Tomb, J.; Dougherty, B.; Merrick, J.; al., e. Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science. 1995-07-28, 269 (5223): 496–512. Bibcode:1995Sci...269..496F . PMID 7542800 . doi:10.1126/science.7542800 .
Goffeau, A.; Barrell, B. G.; Bussey, H.; Davis, R. W.; Dujon, B.; Feldmann, H.; Galibert, F.; Hoheisel, J. D.; Jacq, C.; Johnston, M.; Louis, E. J.; Mewes, H. W.; Murakami, Y.; Philippsen, P.; Tettelin, H.; Oliver, S. G. Life with 6000 Genes . Science. 1996-10-25, 274 (5287): 546–567. Bibcode:1996Sci...274..546G . PMID 8849441 . S2CID 16763139 . doi:10.1126/science.274.5287.546 . (原始内容存档 (PDF) 于2016-03-07).
Bio-IT World . Bio-IT World. 2008-10-06 [2009-02-23 ] . (原始内容存档 于2009-02-17).
Yano, K; Yamamoto, E; Aya, K; Takeuchi, H; Lo, PC; Hu, L; Yamasaki, M; Yoshida, S; Kitano, H; Hirano, K; Matsuoka, M. Genome-wide association study using whole-genome sequencing rapidly identifies new genes influencing agronomic traits in rice.. Nature Genetics. August 2016, 48 (8): 927–34. PMID 27322545 . S2CID 22427006 . doi:10.1038/ng.3596 .
Ayday E; De Cristofaro E; Hubaux JP; Tsudik G. The Chills and Thrills of Whole Genome Sequencing. 2015. arXiv:1306.1264 [cs.CR ].
Levy S, Sutton G, Ng PC, Feuk L, Halpern AL, Walenz BP, Axelrod N, Huang J, Kirkness EF, Denisov G, Lin Y, MacDonald JR, Pang AW, Shago M, Stockwell TB, Tsiamouri A, Bafna V, Bansal V, Kravitz SA, Busam DA, Beeson KY, McIntosh TC, Remington KA, Abril JF, Gill J, Borman J, Rogers YH, Frazier ME, Scherer SW, Strausberg RL, Venter JC. The diploid genome sequence of an individual human . PLOS Biol. September 2007, 5 (10): e254. PMC 1964779 . PMID 17803354 . doi:10.1371/journal.pbio.0050254 .
Wheeler DA; Srinivasan M; Egholm M; Shen Y; Chen L; McGuire A; He W; Chen YJ; Makhijani V; Roth GT; Gomes X; Tartaro K; Niazi F; Turcotte CL; Irzyk GP; Lupski JR; Chinault C; Song XZ; Liu Y; Yuan Y; Nazareth L; Qin X; Muzny DM; Margulies M; Weinstock GM; Gibbs RA; Rothberg JM. The complete genome of an individual by massively parallel DNA sequencing. Nature. 2008, 452 (7189): 872–6. Bibcode:2008Natur.452..872W . PMID 18421352 . doi:10.1038/nature06884 .
Wang J; Wang, Wei; Li, Ruiqiang; Li, Yingrui; Tian, Geng; Goodman, Laurie; Fan, Wei; Zhang, Junqing; Li, Jun; Zhang, Juanbin, Juanbin; Guo, Yiran, Yiran; Feng, Binxiao, Binxiao; Li, Heng, Heng; Lu, Yao, Yao; Fang, Xiaodong, Xiaodong; Liang, Huiqing, Huiqing; Du, Zhenglin, Zhenglin; Li, Dong, Dong; Zhao, Yiqing, Yiqing; Hu, Yujie, Yujie; Yang, Zhenzhen, Zhenzhen; Zheng, Hancheng, Hancheng; Hellmann, Ines, Ines; Inouye, Michael, Michael; Pool, John, John; Yi, Xin, Xin; Zhao, Jing, Jing; Duan, Jinjie, Jinjie; Zhou, Yan, Yan; et al. The diploid genome sequence of an Asian individual . Nature. 2008, 456 (7218): 60–65. Bibcode:2008Natur.456...60W . PMC 2716080 . PMID 18987735 . doi:10.1038/nature07484 .
Corpas, Manuel; Cariaso, Mike; Coletta, Alain; Weiss, David; Harrison, Andrew P; Moran, Federico; Yang, Huanming. A Complete Public Domain Family Genomics Dataset. 2013-11-12. bioRxiv 10.1101/000216 .