核糖核酸定序,簡稱RNA定序(英語:RNA Sequencing,英文簡稱RNA-Seq,也被稱為全轉錄物組散彈槍法定序 Whole Transcriptome Shotgun Sequencing[1],簡稱WTSS)是基於第二代定序技術的轉錄組學研究方法。RNA定序是使用第二代定序的能力,在給定時刻從一個基因組中,揭示RNA的存在和數量的一個快照的技術。[2]

首先提取生物樣品的全部轉錄的RNA,然後反轉錄為c-DNA後進行的二代高通量定序,在此基礎上進行片段的重疊組裝,從而可得到一個個的轉錄本。進而可以形成對該生物樣品當前發育狀態的基因表現狀況的全局了解(global)。進一步說,若和下一階段的生物樣品的RNA-Seq轉錄組進行比較,則可以得到全部的(在轉錄層面)基因表現的上調及下調--這就形成了表現譜,針對關鍵基因則可以形成你要想要的通路(英語:pathway)的構建。

介紹

相較於一個靜態的染色體而言,細胞內的轉錄物組是一個處於不斷變化的動態過程。隨著現在的次世代基因定序(NGS)技術的發展,使得可測得的DNA鹼基覆蓋面增加且樣本輸出的吞吐量增大。有助於對細胞內RNA轉錄物進行定序,提供包括選擇性剪接的轉錄、轉錄後的修飾、基因融合、突變/SNPs以及基因表現量改變等細節[3]。,RNA定序不僅能檢測mRNA的轉錄,還能觀測到包括總RNA和小RNA(miRNA、tRNA和核糖體RNA)在內不同尺度的RNA表現譜[4]。RNA定序還能用來確定外顯子/內含子的邊界,修正之前注釋的5'和3'端基因邊界。未來的RNA定序研究還包括觀察感染時細胞傳導路徑的變化[5]和癌症中不同基因表現程度[6]。下一代基因定序之前,對轉錄物組學基因表現的研究主要基於基因表現晶片(微陣列),後者包含數以千計用於探測靶向序列的DNA探針,可以得到所有表現出轉錄物的表現譜。基因表現晶片之後,基因表現的系列分析英語Serial analysis of gene expression(SAGE)是主要的基因分析技術。 相較於一個靜態的染色體而言,細胞內的轉錄物組是一個處於不斷變化的動態過程。隨著現在的次世代基因定序(NGS)技術的發展,使得可測得的DNA鹼基覆蓋面增加且樣本輸出的吞吐量增大。有助於對細胞內RNA轉錄物進行定序,提供包括選擇性剪接的轉錄、轉錄後的修飾、基因融合、突變/SNPs以及基因表現量改變等細節[7]。,RNA定序不僅能檢測mRNA的轉錄,還能觀測到包括總RNA和小RNA(miRNA、tRNA和核糖體RNA)在內不同尺度的RNA表現譜[8]。RNA定序還能用來確定外顯子/內含子的邊界,修正之前注釋的5'和3'端基因邊界。未來的RNA定序研究還包括觀察感染時細胞傳導路徑的變化[9]和癌症中不同基因表現程度[10]。下一代基因定序之前,對轉錄物組學基因表現的研究主要基於基因表現晶片(微陣列),後者包含數以千計用於探測靶向序列的DNA探針,可以得到所有表現出轉錄物的表現譜。基因表現晶片之後,基因表現的系列分析英語Serial analysis of gene expression(SAGE)是主要的基因分析技術。

相對於RNA定序,基因表現晶片(微陣列)定序結果的覆蓋面很窄,只能覆蓋染色體中1千多萬SNP中的常見等位基因的SNP(50萬到200萬)。因此,現有資料庫中一般沒有罕見等位基因的定序結果,而只有常見的SNP的資料,這對研究者來說是一個重大缺陷。很多癌症源於突變概率小於1%的突變,因而很難被檢測出。但是,基因表現晶片(微陣列)定序在已知的等位基因檢測中仍很重要,使它們非常適合監管機構批准的診斷,如囊性纖維化。


分析

Thumb
Diagram outlining the RNASeq analyses described in this section

轉錄體組裝

有兩種方法用於將原始序列讀數分配給基因體特徵(即組裝轉錄體):

  • De novo: 這種方法不需要參考基因體來重建轉錄體,通常基因體未知、不完整或與參考基因體相比有顯著不同時使用[11]。短讀長序列進行de novo組裝時的挑戰包括:(1) 確定哪些序列應連接成連續序列(重疊序列群, contigs)(2) 定序錯誤和其他人為的穩定性 (3) 計算效率。使用在de novo組裝的主要演算法是從重疊圖轉換而來,稱為de Bruijn圖,其將序列讀長切分為長度k的序列並將所有k-mer轉存成雜湊表[12]。使用de Bruijn圖做組裝的工具有 Velvet[13]、Trinity[11]、Oases[14] 和 Bridger[15]。同一樣品的雙端序列和長序列讀長可作為模板或骨架來彌補短讀長序列的缺陷。評估de novo組裝品質的指標包括重疊序列群長度的中位數、重疊序列群數量和 N50英語N50, L50, and related statistics[16]
Thumb
RNA-seq mapping of short reads in exon-exon junctions. The final mRNA is sequenced, which is missing the intronic sections of the pre-mRNA.
  • 引導式組裝:這種方法使用與DNA比對相同的方式,比對序列至參考基因體的非連續部分則需要額外的計算複雜度[17]。這些非連續序列讀數是對剪接產物進行定序的結果(如圖)。通常比對演算法分為兩個步驟:(1) 對齊序列較短的部分 (seed) (2) 使用 動態規劃 來找到最佳比對,有時結合已知的註釋。使用基因體引導比對的工具包括 Bowtie[18] TopHat(基於Bowtie結果對齊剪接點)[19][20]、Subread[21]、STAR[17]、HISAT2[22]、Sailfish[23]、Kallisto[24] 和 GMAP[25]。基因體引導式組裝的品質可以藉由以下兩者來測量:(1) de novo組裝指標(如N50)2)使用精確度、召回率或它們的組合(如F1 score)(與已知的轉錄本、剪接點、基因體和蛋白質序列比較)[16]。此外,可以使用模擬序列讀數的方式進行電腦模擬評估[26][27]


參考文獻

外部連結

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.