DNA测序(DNA sequencing)又称DNA定序,是指分析特定DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤(G)的排列方式。快速的DNA测序方法的出现极大地推动了生物学和医学的研究和发现。
在基础生物学研究中,和在众多的应用领域,如诊断,生物技术,法医生物学,生物系统学中,DNA序列知识已成为不可缺少的知识。具有现代的DNA测序技术的快速测序速度已经有助于达到测序完整的DNA序列,或多种类型的基因组测序和生命物种,包括人类基因组和其他许多动物,植物和微生物物种的完整DNA序列。
RNA测序则通常将RNA提取后,反转录为DNA后使用DNA测序的方法进行测序。目前应用最广泛的是由弗雷德里克·桑格发明的桑格测序[1]。新的测序方法,例如454生物科学的方法和焦磷酸测序法。
应用
DNA测序可用于确定任何生物的单个基因的序列,较大的遗传区域(即基因簇或操纵子的簇),完整的染色体或整个基因组。 DNA测序也是对RNA或蛋白质进行测序的最有效方法(通过对开放阅读框测序)。目前,DNA测序已成为生物学和其他科学领域(如医学,法医学或人类学等)的关键技术。
在分子生物学中,DNA测序可被用于研究基因组及其编码的蛋白质。利用测序获得的信息,科研人员能够识别基因的变化,基因与疾病和表型的关联,并确定潜在的药物靶点。
由于DNA是携带有遗传信息的大分子,在进化生物学中,DNA测序被用于研究不同生物体之间的相关性以及它们是如何进化的。
宏基因组学是一门直接获取环境中所有遗传物质的研究。环境包括但不限于水体,污水,污垢,从空气中过滤出的碎片或者从生物体采集的样本。了解在特定环境中存在哪些生物体对于生态学,流行病学,微生物学和其他领域的研究至关重要。DNA测序使研究人员能够确定微生物群中可能存在哪些类型的微生物。
医疗人员可通过对患者基因(基因组)的测序结果确定该患者是否有携带遗传性疾病的风险。需要注意的是,该方法属于基因检测,有些基因检测不会用到DNA测序技术。
DNA测序可以与DNA图谱鉴定(基因指纹分析,英语:DNA profiling)一起用于法医鉴定和亲子鉴定。 DNA测试在过去的几十年中发展迅猛,目前已能够做到将DNA鉴定结果与被调查对象联系起来。指纹,唾液,毛囊等中的DNA特征可以将不同的生物体进行区分。测试DNA是一种可以检测DNA链中特定基因组并生成唯一的个性化DNA模型的技术。每一种有机体都有其DNA特征,并可以通过DNA测试来确定。两个人具有完全相同的DNA特征是非常罕见的,因此保证了DNA测试的成功。
历史
脱氧核糖核酸(DNA)最早在1869年由Friedrich Miescher发现并分离出来,但由于当时普遍认为遗传信息保存于蛋白质而不是DNA中,因此在过去几十年中DNA一直没有得到充分研究。1944年,由于Oswald Avery,Colin MacLeod和Maclyn McCarty的一些实验表明,纯化的DNA可以将一种细菌变成另一种细菌,这种情况才发生了变化。这也是首次DNA显示出改变细胞特性的能力。
1953年,James Watson和Francis Crick根据Rosalind Franklin研究的结晶X射线结构提出了他们的双螺旋DNA模型。根据该模型,DNA由彼此缠绕的两条核苷酸链组成,通过氢键连接在一起并以相反方向运行。每条链由四个互补的核苷酸组成:腺嘌呤(A),胞嘧啶(C),鸟嘌呤(G)和胸腺嘧啶(T),其中A与T配对,C与G配对。他们提出的这种结构,使得每条单链都可被用于重建另一条链,并且让遗传信息代代相传。
对蛋白质进行测序的基础首先由弗雷德里克·桑格(Frederick Sanger)的工作奠定,他于1955年完成了胰岛素(胰腺分泌的一种蛋白质)中所有氨基酸序列的测序工作。这是首个确凿的证据证明蛋白质是具有特定分子模式的化学实体,而不是悬浮在流体中的随机混合物。桑格在胰岛素测序方面的成功使得X射线晶体学家大为振奋,包括沃森和克里克,他们现在正试图理解DNA如何指导细胞内蛋白质的形成。在1954年10月弗雷德里克·桑格出席一系列讲座后不久,克里克开始发展一种理论,认为DNA中核苷酸的排列决定了蛋白质中氨基酸的序列,从而帮助确定蛋白质的功能。他于1958年发表了这一理论。
RNA测序是最早的核苷酸测序形式之一。 RNA测序的主要标志是1972年和1976年Walter Fiers及其同事在根特大学(根特,比利时)确定并发表的第一个完整基因序列和噬菌体MS2的完整基因组。传统的RNA测序方法需要创建一个用于测序的互补cDNA(complementary DNA)分子。
确定 DNA 序列的第一种方法涉及由康奈尔大学的吴瑞于1970年建立的位置特异性引物延伸策略[2]。 DNA聚合酶催化和特定核苷酸标记,这两者在当前的测序方案中都很重要,用于对λ噬菌体DNA的粘性末端进行测序[3][4][5]。在1970年至1973年间,吴瑞、R Padmanabhan及其同事证明,该方法可用于使用合成的位置特异性引物确定任何DNA序列[6][7][8]。随后弗雷德里克·桑格(Frederick Sanger)采用这种引物延伸策略在英国剑桥的英国医学研究委员会(MRC)中心开发了更快速的DNA测序方法,并于1977年发表了“使用链终止抑制剂进行DNA测序”的方法。
第一个完整的DNA基因组测序是在1977年Φ-X174噬菌体(Phage Φ-X174)的测序工作。医学研究委员会的科学家在1984年破译了Epstein-Barr病毒的完整DNA序列,发现它含有172,282个核苷酸。 该序列的完成标志着DNA测序的一个重要转折点,它在没有病毒基因谱知识的情况下实现了DNA测序。
20世纪80年代初,Pohl及其同事开发了一种在电泳时将测序反应混合物的DNA分子转移到固定基质上的非放射性方法。随后GATC Biotech公司的DNA测序仪“Direct-Blotting-Electrophoresis-System GATC 1500”商业化,该测序仪在EU基因组测序程序的框架以及酵母酿酒酵母染色体II的完整DNA序列中广泛使用。加利福尼亚理工学院的Leroy E. Hood实验室于1986年宣布了第一台半自动DNA测序机。随后,Applied Biosystems在1987年推出了第一台全自动测序仪ABI 370。以及Dupont公司的Genesis 2000,该仪器使用了一种新的荧光标记技术,可在单一泳道中识别所有四个双脱氧核苷酸。到1990年,美国国立卫生研究院(NIH)已开始对支原体,大肠杆菌,秀丽隐杆线虫和酿酒酵母进行大规模测序实验,费用为每个碱基0.75美元。同时,人类cDNA序列的测序始于Craig Venter的实验室,试图获取人类基因组的编码部分。 1995年,Venter,Hamilton Smith及其基因组研究所(TIGR)的同事发表了第一个完整的自由生物体细菌流感嗜血杆菌(Haemophilus influenzae)的基因组。该环形染色体中含有1,830,137个碱基,其在《科学》杂志中的发表标志着全基因组鸟枪法测序的首次公开使用,摆脱了初始绘制工作的需要。
1990年代中后期开发了几种新的DNA测序方法,并于 2000年在商业DNA测序仪中实施。这些方法统称为“下一代”或“第二代”测序 (NGS) 方法,以便将它们与包括桑格测序在内的早期方法区分开来。 与第一代测序相比,NGS 技术的典型特征是高度可扩展,允许一次对整个基因组进行测序。通常,这是通过将基因组片段化成小块、随机采样片段并使用多种技术之一对其进行测序来实现的,例如下面描述的那些。 整个基因组测序是可能的,因为在一个自动化过程中同时对多个片段进行测序(命名为“大规模并发”测序)。
1990年10月26日,钱永健、Pepi Ross、Margaret Fahnestock 和 Allan J Johnston 提交了一项专利,描述了在 DNA 数组(印迹和单个 DNA 分子)上使用可移除的 3' 阻断剂进行逐步(“碱基对碱基”)测序[10]。 1996 年,斯德哥尔摩皇家理工学院的波尔·尼伦(Pål Nyrén) 和他的学生穆斯塔法·罗纳吉(Mostafa Ronaghi)发表了他们的焦磷酸测序方法[11]。
1997年4月1日,Pascal Mayer 和Laurent Farinelli 向世界知识产权组织提交了描述DNA菌落测序的专利[12]。 本专利中描述的DNA样品制备和随机表面聚合酶链式反应 (PCR) 数组方法,与钱永健等人的“碱基对碱基”测序方法相结合,现已在Illumina公司的Hi-Seq基因组测序仪中实施。
基本方法
马克萨姆-吉尔伯特测序(英语:Maxam-Gilbert sequencing)是一项由阿伦·马克萨姆与沃尔特·吉尔伯特于1976~1977年间开发的DNA测序方法。此项方法基于:对核碱基特异性地进行局部化学改性,接下来在改性核苷酸毗邻的位点处DNA骨架发生断裂[13] 。
Sanger(桑格)双脱氧链终止法是弗雷德里克·桑格(Frederick Sanger)于1975年发明的。测序过程需要先做一个聚合酶链式反应(PCR)。PCR过程中,双脱氧核苷酸可能随机地被加入到正在合成中的DNA片段里。由于双脱氧核糖核苷酸又少了一个氧原子,一旦它被加入到DNA链上,这个DNA链就不能继续增加长度。最终的结果是获得所有可能获得的、不同长度的DNA片段。目前最普遍最先进的方法,是将双脱氧核糖核苷酸进行不同荧光标记。将PCR反应获得的总DNA通过毛细管电泳分离,跑到最末端的DNA就可以在激光的作用下发出荧光。由于ddATP, ddGTP, ddCTP, ddTTP(4种双脱氧核糖核苷酸)荧光标记不同,计算机可以自动根据颜色判断该位置上碱基究竟是A,T,G,C中的哪一个[14]。
高级方法和de novo测序法
霰弹枪测序法(shotgun sequencing,又称鸟枪法)是一种广泛使用的为较长DNA测序的方法。它比传统的测序法快速,但精确度较差。霰弹枪测序法曾经使用于塞雷拉基因组(Celera Genomics)公司所主持的人类基因组计划。
此章节尚无任何内容,需要扩充。 (2021年2月3日) |
新一代测序
随着人们对低成本测序的需求与日俱增,推动了高通量测序(high-throughput sequencing)的发展,此技术又称为二代测序(second generation sequencing)、新一代测序(next-generation sequencing)、次世代测序、大规模平行测序(massively parallel signature sequencing,MPSS),即边合成边测序,一次可以对几十万至数亿条DNA模板同时进行序列测定。这些技术对测序过程采多路复用,同时产生上千或上百万条序列[15][16]。高通量测序技术的目的是降低DNA测序的成本,这个成本比同样可实现测序的染料终止法来得低得多[17]。超高通量测序过程中可同时运行高达500,000次的边合成边测序[18][19][20]。
方法 | 单分子实时测序(Pacific Bio) | 离子半导体(Ion Torrent sequencing) | 焦磷酸测序(454) | 边合成边测序(Illumina) | 边连接边测序(SOLiD sequencing) | 链终止法(Sanger sequencing) |
---|---|---|---|---|---|---|
读长 | 5,500 bp to 8,500 bp avg (10,000 bp N50); maximum read length >30,000 bases[23][24][25] | up to 400 bp | 700 bp | 50 to 300 bp | 50+35 or 50+50 bp | 400 to 900 bp |
精确度 | 99.999% consensus accuracy; 87% single-read accuracy[26] | 98% | 99.9% | 98% | 99.9% | 99.9% |
每次运行可获取读段数 | 50,000 per SMRT cell, or ~400 megabases[27][28] | up to 80 million | 1 million | up to 3 billion | 1.2 to 1.4 billion | N/A |
每次运行耗时 | 30 minutes to 2 hours [29] | 2 hours | 24 hours | 1 to 10 days, depending upon sequencer and specified read length[30] | 1 to 2 weeks | 20 minutes to 3 hours |
每百万碱基所耗成本(美元) | $0.33-$1.00 | $1 | $10 | $0.05 to $0.15 | $0.13 | $2400 |
优势 | Longest read length. Fast. Detects 4mC, 5mC, 6mA.[31] | Less expensive equipment. Fast. | Long read size. Fast. | Potential for high sequence yield, depending upon sequencer model and desired application. | Low cost per base. | Long individual reads. Useful for many applications. |
劣势 | Moderate throughput. Equipment can be very expensive. | Homopolymer errors. | Runs are expensive. Homopolymer errors. | Equipment can be very expensive. Requires high concentrations of DNA. | Slower than other methods. Have issue sequencing palindromic sequence.[32] | More expensive and impractical for larger sequencing projects. |
454测序法由454生物科学发明,是一个类似焦磷酸测序法的新方法。2003年向GenBank提交了一个腺病毒全序列[33],使得他们的技术成为Sanger测序法后第一个被用来测生物基因组全序列的新方法。454使用类似于焦磷酸测序的方法,有着相当高的读取速度,大约为5小时可以测两千万碱基对[33]。
正在开发的测序法
高通量测序能一次对几十到几百万DNA分子进行序列测定。
参见
参考文献
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.