跳至內容

SAM格式

維基百科,自由的百科全書
SAM file format
開發者
格式類型生物信息學
延伸自TSV文件
網站samtools.github.io/hts-specs/

SAM(Sequence Alignment Map,可直譯為「序列比對地圖」)是生物信息學中一種用於儲存已比對到基因組上的序列信息的文件格式。SAM格式是在千人基因組計劃期間由李恆英語Heng Li等人為了取代過去的MAQ格式開發出來的[1]。SAM這一名稱是參與這一項目的猶他大學教授加博爾·馬思決定的。他在現在的SAM格式開發出來以前就開發出了一種同名的結構文件,不過當時他開發的SAM格式更接近於BLAST算法的輸出結果[2]。現在SAM格式已成為學界與工業界都廣泛接受的生物信息學格式之一,經過數次修正之後,目前的SAM格式甚至也可以儲存沒有比對到基因組上的序列信息。SAM格式不僅可以儲存第二代測序英語Massive parallel sequencing中的短長度序列的比對信息,也可以儲存長至128MB的長序列的比對信息[3]

SAM格式壓縮後以二進制格式表示產生的文件稱為BAM格式(Binary Alignment Map[4]

格式

SAM格式由頭部(header)和比對(alignment section)兩部分組成[1],可以使用SAMtools英語SAMtools軟件進行分析和編輯。如果存在頭部部分,它必須位於比對部分之前。頭部部分以'@'符號開頭,以區別於比對部分。比對部分有11個必需字段以及可變數量的可選字段[1]

名稱 數據類型 說明
1 QNAME 字符 查詢模板名稱
2 FLAG 整數 比對FLAG數字之和
3 RNAME 字符 序列比對上的參考序列的名稱,在真核生物中一般指染色體編號
4 POS 整數 序列上第一個鹼基比對到參考序列上的位置,如沒有比對上會記為0
5 MAPQ 整數 比對品質的評分,數值越大代表比對品質越高
6 CIGAR 字符 CIGAR值
7 RNEXT 字符 雙端測序另一端序列比對上的參考序列的名稱,在真核生物中一般指染色體編號。單端測序數據中此處會被記為「*」
8 PNEXT 整數 雙端測序另一端序列比對到參考序列上的位置,如沒有比對上會記為0
9 TLEN 整數 讀長比對到參考序列上的長度,如果和參考序列完全比對,數值上等於讀長本身的長度
10 SEQ 字符 讀長序列信息
11 QUAL 字符 讀長的測序品質,以Phred-33分數表示

參見

參考資料

  1. ^ 1.0 1.1 1.2 1.3 Li, H.; Handsaker, B.; Wysoker, A.; Fennell, T.; Ruan, J.; Homer, N.; Marth, G.; Abecasis, G.; Durbin, R. The Sequence Alignment/Map format and SAMtools (PDF). Bioinformatics. 2009, 25 (16): 2078–2079 [2023-07-19]. ISSN 1367-4803. PMC 2723002可免費查閱. PMID 19505943. doi:10.1093/bioinformatics/btp352. (原始內容存檔 (PDF)於2021-12-26). 
  2. ^ Play it again, SAMtools. Q&A with the SAMtools team on 12 years of providing bioinformatics "glue" - GigaBlog. gigasciencejournal.com. [2021-03-20]. (原始內容存檔於2023-05-20) (英語). 
  3. ^ Dörpinghaus, J.; Weil, V.; Schaaf, S.; Apke, A. Computational Life Sciences: Data Engineering and Data Mining for Life Sciences. Studies in Big Data. Springer International Publishing. 2023: 447 [2023-07-19]. ISBN 978-3-031-08411-9. (原始內容存檔於2023-07-19). 
  4. ^ SAM/BAM Format Specification (PDF). samtools.github.io. [2023-07-19]. (原始內容存檔 (PDF)於2017-04-06).