Format FASTA

From Wikipedia, the free encyclopedia

En bioinformàtica, el format FASTA és un format de fitxer en text per a la representació de seqüències tant nucleotídiques com peptídiques, en què els nucleòtids i els aminoàcids es representen usant un codi d'una sola lletra. Aquest format[1] també permet que les seqüències estiguin encapçalades pel nom de la seqüència o comentaris. El format FASTA es va originar pel paquet de software FASTA, però avui en dia és un estàndard en el camp de la bioinformàtica.

Dades ràpides Tipus, Extensió ...
Format FASTA
Tipusformat de fitxer i textual data format (en)
Extensiófasta i fa
MIMEtext/plain, chemical/seq-aa-fasta i chemical/seq-na-fasta
DesenvolupadorDavid J. Lipman i William Raymond Pearson (en)
Versió inicial1985
Més informació
Wiki del format de fitxerFASTA_and_FASTQ
Tanca

La simplicitat del format FASTA fa que sigui fàcil manipular les seqüències usant eines de processament de text i llenguatges script com ara Python, Ruby o Perl.


Una seqüència en format FASTA comença amb una capçalera de descripció d'una sola línia amb el símbol '>' al principi. La paraula que en segueix, que no ha de tenir espais, acostuma a ser l'identificador de la seqüència. Per altra banda, l'NCBI defineix un estàndard d'identificadors únics en aquesta capçalera de descripció,[2] que programes com el makeblastdb del BLAST utilitzen per indexar fitxers amb múltiples seqüències.

És habitual que la seqüència biològica que en segueix contingui només vuitanta caràcters per línia.

>gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]
MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI
IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGF

L'extensió de fitxer que conté les seqüències acostuma a ser: .fa, .fasta o variacions similars.

Vegeu també

Enllaços externs

Referències

Wikiwand - on

Seamless Wikipedia browsing. On steroids.