From Wikipedia, the free encyclopedia
FASTQ je textový soubor sloužící k uchování biologické sekvence (typicky nukleotidové sekvence) a také nese informace o skóre kvality jednotlivých nukleotidů. Samotné báze sekvence, tak i skóre kvality je zakódováno jedním ASCII znakem. Skóre kvality udává, s jakou pravděpodobností byla konkrétní báze určena chybně.
Formát byl původně vytvořen ve Welcome Trust Sanger Institute, aby do jednoho souboru bylo možno uložit informaci jak o sekvenci, tak i o kvalitě dat. Díky tomu se stal standardem pro uchovávání výstupů z high-throughput sekvenátorů.[1]
FASTQ soubory mohou obsahovat až několik milionů znaků a mohou dosahovat velikosti až několik gigabytů, což je často dělá moc velkými na to, aby mohly být otevřeny v běžném textovém editoru. FASTQ soubory totiž typicky obsahují velké množství sekvencí. Často je ale není potřeba otevírat, protože jsou vstupními soubory pro následné analýzy jako je například alignment k referenčnímu genomu nebo de novo sestavování genomu. Pokud by ale uživatel chtěl soubor zobrazit je vhodné k tomu použít systém Unix nebo Linux které umožňují zobrazení velkých souborů přes příkazovou řádku.
FASTQ soubor se skládá ze 4 řádků:
FASTQ soubor obsahující jednu sekvenci může vypadat takto:
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
Hodnoty kvality neboli Q skóre jsou reprezentovány ASCII znaky. Znak reprezentující nejnižší kvalitu je "!" a nejvyšší kvalitu reprezentuje znak "~". Znaky (celkem 94) jsou pak zleva doprava seřazeny od nejnižší kvality po nejvyšší takto:[2]
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
Sekvenační kvalita dané báze Q je definována následujícím vztahem:
kde p je předpokládaná pravděpodobnost chybně určené báze. Vyšší Q skóre indikuje menší pravděpodobnost chyby. Nižší Q skóre naopak vyšší pravděpodobnost chyby. Kvality skóre 20 (Q20) znamená 1 chybu na 100 znaků, což odpovídá přesnosti 99 %. Q30 se považuje za měřítko kvality pro sekvenování nové generace (NGS).
Způsob kódování kvality se liší v závislosti na použitém přístroji a softwaru pro určování bází (tzv. basecaller). Například formát Phred+33 používaný při Sangerovu sekvenování kóduje skóre kvality od 0 do 93 a využívá pro to ASCII znaky s kódem 33 až 126. Nejnižší kvalita (0) odpovídá tedy ASCII znaku 33, což je !. Dalšími formáty je Phred+64 a Solexa+64, kdy kvalitě 0 odpovídá ASCII znak 64. Rozdíl mezi Phred+64 a Solexa+64 je, že u kódování Solexa může hodnota kvality dosáhnout záporné hodnoty -5. Nejpoužívanější je ale formát Phred+33 a je využíván většinou používaných přístrojů. Typická kvalita většinou nepřesahovala 40. Což se s nástupem sekvenování nové generace či vylepšováním technik mění a jsme schopni tuto hodnotu přesáhnout. Nevýhodou je, pokud některé nástroje či skripty se setkají s hodnotou kvality vyšší než 40, může to vést jejich selhání či chybám.
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS..................................................... ..........................XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX...................... ...............................IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII...................... .................................JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ..................... LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL.................................................... NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN........................................... EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE PPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPP !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ | | | | | | | 33 59 64 73 88 104 126 0........................26...31.......40 -5....0........9.............................40 0........9.............................40 3.....9..............................41 0.2......................26...31........41 0..................20........30........40........50 0..................20........30........40........50...55 0..................20........30........40........50..........................................93
S - Sanger Phred+33, typická kvalita hrubých dat (0, 40) X - Solexa Solexa+64, typická kvalita hrubých dat (-5, 40) I - Illumina 1.3+ Phred+64, typická kvalita hrubých dat (0, 40) J - Illumina 1.5+ Phred+64, typická kvalita hrubých dat (3, 41) kde 0=nepoužito, 1=nepoužito, 2=Kontrolní indikátor kvality segmentu čtení (tučně). L - Illumina 1.8+ Phred+33, typická kvalita hrubých dat (0, 41) N - Nanopore Phred+33, typická kvalita duplexových dat (0, 50) E - ElemBio AVITI Phred+33, typická kvalita hrubých dat (0, 55) P - PacBio Phred+33, typická kvalita HiFi dat (0, 93)
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.