SAM(Sequence Alignment Map,可直譯為「序列比對地圖」)是生物信息學中一種用於儲存已比對到基因組上的序列信息的文件格式。SAM格式是在千人基因組計劃期間由李恆英語Heng Li等人為了取代過去的MAQ格式開發出來的[1]。SAM這一名稱是參與這一項目的猶他大學教授加博爾·馬思決定的。他在現在的SAM格式開發出來以前就開發出了一種同名的結構文件,不過當時他開發的SAM格式更接近於BLAST算法的輸出結果[2]。現在SAM格式已成為學界與工業界都廣泛接受的生物信息學格式之一,經過數次修正之後,目前的SAM格式甚至也可以儲存沒有比對到基因組上的序列信息。SAM格式不僅可以儲存第二代測序英語Massive parallel sequencing中的短長度序列的比對信息,也可以儲存長至128MB的長序列的比對信息[3]

快速預覽 開發者, 格式類型 ...
SAM file format
開發者
格式類型生物信息學
延伸自TSV文件
網站samtools.github.io/hts-specs/
關閉

SAM格式壓縮後以二進制格式表示產生的文件稱為BAM格式(Binary Alignment Map[4]

格式

SAM格式由頭部(header)和比對(alignment section)兩部分組成[1],可以使用SAMtools英語SAMtools軟體進行分析和編輯。如果存在頭部部分,它必須位於比對部分之前。頭部部分以'@'符號開頭,以區別於比對部分。比對部分有11個必需欄位以及可變數量的可選欄位[1]

更多資訊 列, 名稱 ...
名稱 數據類型 說明
1 QNAME 字符 查詢模板名稱
2 FLAG 整數 比對FLAG數字之和
3 RNAME 字符 序列比對上的參考序列的名稱,在真核生物中一般指染色體編號
4 POS 整數 序列上第一個鹼基比對到參考序列上的位置,如沒有比對上會記為0
5 MAPQ 整數 比對品質的評分,數值越大代表比對品質越高
6 CIGAR 字符 CIGAR值
7 RNEXT 字符 雙端測序另一端序列比對上的參考序列的名稱,在真核生物中一般指染色體編號。單端測序數據中此處會被記為「*」
8 PNEXT 整數 雙端測序另一端序列比對到參考序列上的位置,如沒有比對上會記為0
9 TLEN 整數 讀長比對到參考序列上的長度,如果和參考序列完全比對,數值上等於讀長本身的長度
10 SEQ 字符 讀長序列信息
11 QUAL 字符 讀長的測序品質,以Phred-33分數表示
關閉

參見

參考資料

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.