From Wikipedia, the free encyclopedia
U bioinformatici, BLAST (eng. Basic Local Alignment Search Tool) je algoritam za poređenje primarnih bioloških sekvenci, kao što su aminokiseline raznih proteina ili nukleotid a u molekulama DNK.[1] Pretraživač BLAST pomogućava spoređenje mnoštva sekvenci sa bibliotekama ili bazama podataka o sekvencama i identificiraju sekvencu koja odgovara traženoj, sa određenom greškom.
BLAST
| |
---|---|
Nasljednik | FASTA-e, iz 1985 |
Datum osnivanja | 1990. |
Vrsta | Baza genomskih podataka |
Status | Aktivna |
Glavno sjedište | NCBI, SAD |
Jezik | Engleski |
Br. volontera | Neograničen |
Veb-sajt | blast |
BLAST-u je The New York Times nazivao Googleom bioloških istraživanja i jedan je od najčešće korištenih bioinformatičkih programa za pretraživanje sekvenci.[2]
Danas su dostupni raazličiti tipovi BLAST-a, u zavisnosti od tipa pretraživane sekvence. Naprimjer, nakon otkrića prethodno nepoznatog gena kod miševa, obično se uključuje BLAST- pretraga ljudskih genoma u provjeri da li dati ljudi sadrže slične gene, BLAST prepoznaje sekvence u genomu koje liče mišjem, zasnovanom na sličnosti sekvenci. BLAST-ov algoritam i program dizajnirali su i Stephen Altschul, Warren Gish, Webb Miller, Eugene Myers, i David J. Lipman u Nacionalnom institutu za zdravlje Sjedinjenih Država i objavili u Journal of Molecular Biology, 1990.[3]
BLAST je jedan od najčešće koršćenih programa u bioinformatici za pretragu sekvenci.[4] Predstavlja temelj za rješavanje problem u bioinformatici. Korištemi Heuristički algoritam je mnogo brži nego drugi pristupi, kao što je računanje optimalnog poravnanja. Naglasak na brzini je ključan aspekat algoritma, posebno na velikim sada dostupnim bazama genoma, iako noviji algoritmi mogu biti još brži. Za slične potrebe, prije BLAST-a, David J. Lipman i William R. Pearson kreirali su FASTA, 1985.[5] Prije brzih algoritama, kao što su BLAST i FASTA, pretraživbanja proteina i nukleinskih sekvenci bila je vremenski veoma zahtijevna jer je korišten potpuni postupak poravananja (npr., Smit-Vatermanov algoritam).
Iako je BLAST brži od svih Smith-Watermanovih implementacija za većinu slučajeva, ipak ne može "garantirati optimalno poravnavanje upita sa bazom sekvenci" kao Smith-Watermanov. Optimalnost S–W algoritma "obezjbeđuje najveću tačnost i najpreciznije rezultate", po cijenu vremena i resursa računara.
BLAST je vremenski efikasniji od FASTAjer budući da pretražuje samo značajnije uzorake u sekvenci, ali sa potrebnom osetljivošću.
Primjeri upotrebe BLAST-a, između ostalih, je traženje odgovora na upite:
BLAST je često korišćen kao komponenta drugih algoritama koji zahtijevaju približno poklapanje sekvenci.
Ulaz predstavljaju sekvence (u FASTA formatu ili Genbank formatu) i težinsku matricu.
Izlaz BLAST algoritma može biti predstavljen na različite načine. Korišteni formati mogu biti HTML, tekst i XML. Za web stranicu NCBI, podrazumijevani format izlaza je HTML. Kada se BLAST algoritam realizira na NCBI sajtu, rezultati se dobiju u grafičkom obliku i prikazuju pogotke, a tabele p identifikatore sekvenci za pogotke, zajedno sa pratećim podacima, kao i poravnanje sekvenci od interesa. Uključuje i pogotke dobijene korišćenjem odgovarajućeg vrijednosnog sistema BLAST. su Tabele su i najjednostavnije i najinformativnije za čitanje.
Ako se traži sekvenca koje nema u javno dostupnim bazama putem izvora, kao što je NCBI sajt, BLAST-ov algoritam je moguće besplatno preuzeti sa interneta. Može se preuzeti sa NCBI sajta[6]. Dostupni su i komercijalni programi, a baze se mogu naći na NCBI sajtu, kao i na indeksu BLAST baza podataka[7].
Korištenjem heurističkih metoda, BLAST nalazi slične sekvence, lociranjem kratkih poklapanja između poređenih sekvenci. Ovaj proces pronalaženja naziva se sijanje (eng.seeding). Nakon prvog poklapanja, BLAST počinje praviti lokalna poravnavanja. Dok pokušava naći sličnost u sekvenci, veoma je važan skup čestih slova, poznat kao riječ. Naprimjer, ako sekvenca sadrži niz slova: GLKFA. Ako se BLAST pokrene pod normalnim uvjetima, riječ bi bila duga tri slova. U ovom slučaju, korištenjem datog niza slova, dobijene riječi bi bile GLK, LKF, KFA. BLAST-ov heuristički algoritam locira sve česte pojave troslovnih riječi između zadate i pronađene sekvence. Ovaj rezultat se zatim koristi za kreiranje poravnavanja. Nakon što je napravio moguće riječi za posmatranu sekvencu, također su obrađene i ostale. Te riječi, u poređenju sa matricom vrijednosti, moraju imati zadovoljen prag T. Često korištena matrica vreijdnosti za BLAST pretraživanja je BLOSUM62, iako optimalna matrica vrijednosti ovisi od sličnosti sekvenci. Kada su riječi, kao i okolne , procesuirane, porede se sa sekvencama iz baze u cilju pronalaska poklapanja. O tome da li konkretna riječ ulazi u poravnanje određuje Prag T. Kada se obavi sijanje , poravnanje dužine 3, prošireno je u oba smjera pomoću BLAST algoritma. Svako proširenje utiče na rezultat poravnanja, bilo povećanjem bilo smanjenjem. Ako je rezultat veći od unaprijed određenog T, poravnanje će biti uključeno u rezultat BLAST-a. Međutim, ako je rezultat manji od predodređenog T, poravnanje će prestati da se širi, sprečavajući da se segmenti sa lošim poravnanjem uključe u rezultat BLAST-a. Treba uočiti da dse povećanjem T ograničava prostor koji se može pretraživati i smanjujej broj susednih riječi, dok se istovremeno ubrzava BLAST.[8]
Za pokretanje programa, BLAST zahtijeva unos sekvence za pretragu i sekvence sa kojom će upoređivati (također znava i “ciljana sekvenca”) ili baze koja sadrži više sekvenci. BLAST će naći više podsekvenci u bazi koje su slične podsekvenci upita. Obično, upitna sekvenca je dosta manja od baze, naprimjer, upit može sadržati hiljadu nukleotida, dok baza ih sadrži nekoliko milijardi.
Glavna ideja BLAST-a je da često postoji visoko rangirani segmentni parovi (High-scoring Segment Pairs – HSP) sadržani u statistički bitnom poravnanju. BLAST traži visoko rangirana poravnanja između upitne i posmatrane sekvence iz baze, koristeći heuristički pristup, koji aproksimira Smith-Waterman algoritam. Međutim, iscrpni Smith-Watermanov pristup suviše je spor za pretraživanje velikih baza genoma, kao što je GenBank. Zato se BLAST algoritam koristi heuristički i manje je precizan od Smith-Watermanovog algoritma, ali preko 50 puta brži. Brzina i relativno dobra preciznost BLAST-a su među ključnim tehničkim inovacijama BLAST programa. Pregled BLAST algoritma (protein-protein pretraga):[9] and CTGA2016
Verzija paralelnog BLAST-a, koja koristi razdvojene baze implementirana je korištenjem MPI i Pthreads, i prilagođena je različitim platformama, uključijući i Windows, Linux, Solaris, Mac OS X i AIX. Popularni pristup paraleliziranja BLAST-a uključuje distribuirane upite, segmentaciju keš tabela, paralelno računanje i segmentaciju baza. Baze su podeljene na jednake dijelove i čuvaju se na lokalnim čvorovima. Svaki upit pokrenut na svim čvorovima paralelno je i izlazni za fajlove koji su spojeni u finalni izlaz.[14]
Program BLAST-a može biti, ili preuzet, ili pokrenut iz komandne linije, ili se može koristiti besplatno onlajn. BLAST-ov web server, kojeg održava NCBI, dozvoljava svakome sa web pretraživačem da obavlja slične pretrage na konstantno ažuriranoj bazi proteina i DNK, koja uključuje većinu organizama. Ovaj program je otvorenog koda, što daje svima mogućnost da ga i koriste i mijenjaju. To je dovelo do nastanka više varijanti programa BLAST.
Danas su dostupne različite korisne varijacije BLAST-a, koje mogu biti upotrebljene u zavisnosti od onoga šta se želi raditi i čime se radi. Ove varijacije programa su različite po upitnim sekvencama baze koja se pretražuje i šta se upoređuje. Ovi programi i njihovi opisi su izlistani ispod: BLAST je zapravo porodica programa (sve su uključene u Blastall ). Ovo uključuje:[15]
Dizajnirana verzija za poređenje velikih genoma ili DNK je BLASTZ.
CS-BLAST (ContSxt-Specific BLAST) je proširena verzija BLAST-a za pretragu proteinskih sekvenci, koja pronalazi dvostruko više daleko povezanijih sekvenci od BLAST-a za isto vrijeme i sa istom stopom greške. U CS-BLAST-a, vjerovatnoća mutacija između aminokiselina ne ovisi samo od jedne aminokiseline kao u BLAST-u, već i od konteksta lokalne sekvence. Vašingtoski univerzitet napravio je alternativnu verziju NCBI BLAST-a, zvanu WU-BLAST. Autorska prava pripadaju kompaniji Advanced Bioco, a NCBI objavio je novu seriju BLAST-ovih izvršnih programa, C++ zasnovani BLAST+,[19], i objavio je paralelnu verziju do 2.2.26. Počevši sa verzijom 2.2.27 (April 2013), dostupni su samo BLAST+ izvršni programi. Među izmjenama je i zamjena blastall
komande za više različitih uputa za različite BLAST programe i promjene u rukovanju opcijama.
Ekstremno brza, ali znatno manje osetljiva, alternativa BLAST-u je BLAT (eng. Blast Like Alignment Tool). Dok BLAST obavlja linearnu pretragu, BLAT se oslanja na k-mer indeksiranje baze i na tako često može brže pronaći sjeme. .[20] Još jedan program sličan BLAT-u je PatternHunter.
Napretkom tehnologija sekvenciranja, kasnih 2000-tih, nalaženje veoma sličnih nukleotida postaje važan problem. Novi programi poravnanja skovani za ovu specifičnu upotrebu koriste BWT-indeksiranje ciljane baze (obično genoma). Ulazna sekvenca može biti mapirana vrlo brzo, a izlaz je obično u vidu BAM-fajla. Primjeri programa poravnanja su BWA, SOAP i Bowtie. Za identificiranje proteina, traženje poznatih domena (npr. Pfam) povezivanjem sa Skrivenog Markovljevog modela popularna je alternativa, kao što je npr. HMMER. Alternativa BLAST-u za poređenje dvije banke sekvenci je KLAST[21] and ORIS[22]. Rezultati KLAST-a su veoma slični rezultatiima BLAST-a, ali KLAST je značajno brži i sposobniji da poredi velike skupove sekvenci sa malim utroškom memorije.
BLAST se može koristiti za više različitih potreba, uključujući i identifikaciju vrsta, lociranje domena, rekonstrukciju filogeneze, DNK mapiranje i poređenje.
Iako se i Smith-Watermanov metod i BLAST koriste za pronalaženje odgovaraćujih sekvenci pretragom i poređenje upitne sekvence sa onim iz baza, imaju određene razlike. BLAST zasnovan na heurističkom algoritmu, pa rezultati dobijeni njegovom primjrnom, u terminima broja pronađenih pogodaka, možda neće dati najbolje rezultate, jer neće pronaći sva podudaranja sa bazom. Bolja alternativa za pronalaženje najboljeg mogućeg rješenja bila bi korišćenje Smith-Watermanovog algoritma. Ovaj metod se razlikuje od BLAST-a po preciznosti i brzni. Smith-Watermanov metod obezbjeđuje veću preciznost, jer pronalazi podudaranja koja BLAST ne može, zato što ne preskače nijednu informaciju. Međutim, u poređenju sa BLAST-om, troši više vremena i zahtijeva veću količinuračunarskih resursa. Pronađene su tehnologije koje mogu znatno da ubrzaju Smith-Watermanov proces. Uključuju FPGA čipove i SIMD technologiju.
Za dobijanje boljih rezultata BLAST-a, mogu se promijeniti podrazumijevana podešavanja. Ne postoji siguran način za mijenjanje podešavanja, kako bi se obezbijedio najbolji rezultat za datu sekvencu.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.