核糖核酸测序,简称RNA测序(英语:RNA Sequencing,英文简称RNA-Seq,也被称为全转录物组散弹枪法测序 Whole Transcriptome Shotgun Sequencing[1],简称WTSS)是基于第二代测序技术的转录组学研究方法。RNA测序是使用第二代测序的能力,在给定时刻从一个基因组中,揭示RNA的存在和数量的一个快照的技术。[2]

首先提取生物样品的全部转录的RNA,然后反转录为c-DNA后进行的二代高通量测序,在此基础上进行片段的重叠组装,从而可得到一个个的转录本。进而可以形成对该生物样品当前发育状态的基因表达状况的全局了解(global)。进一步说,若和下一阶段的生物样品的RNA-Seq转录组进行比较,则可以得到全部的(在转录层面)基因表达的上调及下调--这就形成了表达谱,针对关键基因则可以形成你要想要的通路(英语:pathway)的构建。

介绍

相较于一个静态的染色体而言,细胞内的转录物组是一个处于不断变化的动态过程。随着现在的次世代基因测序(NGS)技术的发展,使得可测得的DNA碱基覆盖面增加且样本输出的吞吐量增大。有助于对细胞内RNA转录物进行测序,提供包括选择性剪接的转录、转录后的修饰、基因融合、突变/SNPs以及基因表达量改变等细节[3]。,RNA测序不仅能检测mRNA的转录,还能观测到包括总RNA和小RNA(miRNA、tRNA和核糖体RNA)在内不同尺度的RNA表达谱[4]。RNA测序还能用来确定外显子/内含子的边界,修正之前注释的5'和3'端基因边界。未来的RNA测序研究还包括观察感染时细胞传导路径的变化[5]和癌症中不同基因表达程度[6]。下一代基因测序之前,对转录物组学基因表达的研究主要基于基因表达芯片(微阵列),后者包含数以千计用于探测靶向序列的DNA探针,可以得到所有表达出转录物的表达谱。基因表达芯片之后,基因表达的系列分析英语Serial analysis of gene expression(SAGE)是主要的基因分析技术。 相较于一个静态的染色体而言,细胞内的转录物组是一个处于不断变化的动态过程。随着现在的次世代基因测序(NGS)技术的发展,使得可测得的DNA碱基覆盖面增加且样本输出的吞吐量增大。有助于对细胞内RNA转录物进行测序,提供包括选择性剪接的转录、转录后的修饰、基因融合、突变/SNPs以及基因表达量改变等细节[7]。,RNA测序不仅能检测mRNA的转录,还能观测到包括总RNA和小RNA(miRNA、tRNA和核糖体RNA)在内不同尺度的RNA表达谱[8]。RNA测序还能用来确定外显子/内含子的边界,修正之前注释的5'和3'端基因边界。未来的RNA测序研究还包括观察感染时细胞传导路径的变化[9]和癌症中不同基因表达程度[10]。下一代基因测序之前,对转录物组学基因表达的研究主要基于基因表达芯片(微阵列),后者包含数以千计用于探测靶向序列的DNA探针,可以得到所有表达出转录物的表达谱。基因表达芯片之后,基因表达的系列分析英语Serial analysis of gene expression(SAGE)是主要的基因分析技术。

相对于RNA测序,基因表达芯片(微阵列)测序结果的覆盖面很窄,只能覆盖染色体中1千多万SNP中的常见等位基因的SNP(50万到200万)。因此,现有数据库中一般没有罕见等位基因的测序结果,而只有常见的SNP的数据,这对研究者来说是一个重大缺陷。很多癌症源于突变概率小于1%的突变,因而很难被检测出。但是,基因表达芯片(微阵列)测序在已知的等位基因检测中仍很重要,使它们非常适合监管机构批准的诊断,如囊性纤维化。


分析

Thumb
Diagram outlining the RNASeq analyses described in this section

转录体组装

有两种方法用于将原始序列读数分配给基因体特征(即组装转录体):

  • De novo: 这种方法不需要参考基因体来重建转录体,通常基因体未知、不完整或与参考基因体相比有显著不同时使用[11]。短读长序列进行de novo组装时的挑战包括:(1) 确定哪些序列应连接成连续序列(重叠序列群, contigs)(2) 测序错误和其他人为的稳定性 (3) 计算效率。使用在de novo组装的主要算法是从重叠图转换而来,称为de Bruijn图,其将序列读长切分为长度k的序列并将所有k-mer转存成杂凑表[12]。使用de Bruijn图做组装的工具有 Velvet[13]、Trinity[11]、Oases[14] 和 Bridger[15]。同一样品的双端序列和长序列读长可作为模板或骨架来弥补短读长序列的缺陷。评估de novo组装品质的指标包括重叠序列群长度的中位数、重叠序列群数量和 N50英语N50, L50, and related statistics[16]
Thumb
RNA-seq mapping of short reads in exon-exon junctions. The final mRNA is sequenced, which is missing the intronic sections of the pre-mRNA.
  • 引导式组装:这种方法使用与DNA比对相同的方式,比对序列至参考基因体的非连续部分则需要额外的计算复杂度[17]。这些非连续序列读数是对剪接产物进行测序的结果(如图)。通常比对算法分为两个步骤:(1) 对齐序列较短的部分 (seed) (2) 使用 动态规划 来找到最佳比对,有时结合已知的注释。使用基因体引导比对的工具包括 Bowtie[18] TopHat(基于Bowtie结果对齐剪接点)[19][20]、Subread[21]、STAR[17]、HISAT2[22]、Sailfish[23]、Kallisto[24] 和 GMAP[25]。基因体引导式组装的品质可以借由以下两者来测量:(1) de novo组装指标(如N50)2)使用精确度、召回率或它们的组合(如F1 score)(与已知的转录本、剪接点、基因体和蛋白质序列比较)[16]。此外,可以使用模拟序列读数的方式进行电脑模拟评估[26][27]


参考文献

外部链接

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.