From Wikipedia, the free encyclopedia
Predviđanje gena ili nalaženje gena, znano i kao predikcija gena – u računarskoj biologiji – odnosi se na postupak identifikacije regija genomske DNK, koje kodiraju gene. To uključuje protein-kodirajuće gene, kao i RNK gene, ali može uključivati i predviđanje drugih funkcijskih elemenata, kao što su regulatorne regije. Pronalaženje gena jedan je od prvih i najvažnijih koraka u razumijevanju genoma vrste, nakon sekvenciranja.
U svojim najranijim pokušajima, predikcija gena zasnivala se na mukotrpnom eksperimentiranju na živim ćelijama i organizmima. Statistička analiza brzine homologne rekombinacije nekoliko različitih gena, mogla j odrediti njihov redoslijed na određenom hromosomu, a informacije iz mnogih takvih eksperimenata mogle bi se kombinirati za kreiranje genetičke mape koja specificira grubi raspored poznatih gena, u prostornom međuodnosu njihoih lokusa. Danas, sa sveobuhvatnom sekvencom genoma i moćnim računskim resursima na raspolaganju je predikcija gena redefinirana kao uglavnom računarski problem.
Utvrđivanje funkcionalnosti neke sekvence treba razlikovati od utvrđivanja funkcija gena ili njegovog proizvoda. Predviđanje funkcije gena i potvrđivanje tačnosti predviđanja gena i dalje zahtijeva eksperimentiranje in vivo[1] putem nokaut gena i drugih testova, iako granice bioinformatičkih istraživanja[2] čine sve više mogućim predviđanje funkcije gena samo na osnovu njegove sekvence.
Predviđanje gena jedan je od ključnih koraka u označavanju genoma, nakon sastavljanja sekvence, filtriranja nekodirajućih područja i maskiranja ponavljanja.[3]
Predviđanje gena usko je povezano s takozvanim „problemom pretraživanja cilja“, koji istražuje kako proteini koji vežu DNK (faktori transkripcije) pronalaze specifična mjesta vezanja unutar genoma.[4][5] Mnogi aspekti strukturnog predviđanja gena temelje se na trenutnom razumijevanju osnovnih biohemijskih procesa u ćeliji kao što su geni transkripcije, translacije, interakcije protein-protein i procesi regulacije, koji su predmet aktivnih istraživanja u raznim omikama, kao što su transkriptomika, proteomika, metabolomika i općenito strukturna i funkcionalna genomika.
U empirijskim sistemima za pronalaženje gena (sličnosti, homologije ili dokaza), ciljani genom se traži za sekvence koje su slične vanjskim dokazima u obliku poznate izražene oznake sekvence, informacijske RNK (iRNK ), proteinskog proizvoda i homologne ili ortologne sekvence. S obzirom na sekvencu iRNK, trivijalno je izvesti jedinstvenu genomsku sekvencu DNK, iz koje je ona trebala biti transkribirana. Imajući u vidu sekvencu proteina, porodica mogućih kodirajućih sekvenci DNK može se dobiti obrnutim prevođenjem genetičkog koda. Kada se utvrde kandidatske sekvence DNK, relativno je jednostavan algoritamski problem efikasno pretraživati ciljni genom za podudaranja, potpuna ili djelimična, te egzaktna ili netačna. Prema sekvencama, algoritmi lokalnog poravnanja poput BLAST-a, FASTA-a i Smith-Watermanovog algoritma traže regije sličnosti između ciljne sekvence i mogućih kandidatskih podudaranja. Podudaranja mogu biti potpuna ili djelomična, te egzaktna ili netačna. Uspjeh ovog pristupa ograničen je sadržajem i tačnošću baze podataka o sekvencama.
Visok stepen sličnosti sa poznatim iRNK ili proteinskim proizvodom snažan je dokaz da je regija ciljnog genoma protein koji kodira protein. Međutim, za sistemsku primjenu ovog pristupa potrebno je opsežno sekvenciranje iRNK i proteinskih proizvoda. Ne samo da je ovo skupo, već se u složenim organizmima u bilo kojem trenutku izražava samo podskup svih gena u njeihovim genomima, što znači da vanjski dokazi za mnoge gene nisu lahko dostupni u bilo kojoj pojedinačnoj ćelijskoj kulturi. Dakle, za prikupljanje vanjskih dokaza za većinu ili sve gene u složenom organizmu potrebno je proučiti stotine ili hiljade tipova ćelija, što predstavlja dodatne poteškoće. Naprimjer, neki ljudski geni mogu se izraziti samo tokom embrionskog ili fetusnog razvoja, što bi iz etičkih razloga moglo biti teško proučiti.
Uprkos tim poteškoćama, stvorene su opsežne baze podataka o transkriptima i sekvencama ljudskih proteina, kao i za druge važne modelne organizme u biologiji, poput miševa i kvasaca. Naprimjer, baza podataka RefSeq sadrži transkripte i sekvence proteina mnogih različitih vrsta, a sistem Ensembl sveobuhvatno preslikava ove dokaze na ljude i nekoliko drugih genoma. Međutim, vjerovatno je da su ove baze podataka nepotpune i sadrže male, ali značajne količine pogrešnih podataka.
Nove visokopropusne tehnologije transkriptomskih sekvenciranja kao što su RNK-Seq i ChIP-sekvenciranje otvaraju mogućnosti za uključivanje dodatnih vanjskih dokaza u predviđanju i validaciji gena, i omogućavaju strukturno bogatu i tačniju alternativu prethodnog metoda merenja ekspresije gena, kao što su izražena oznaka sekvence ili mikromreža DNK.
Glavni izazovi u predviđanju gena uključuju rješavanje grešaka sirovih podataka u sekvenciranju DNK, ovisnost o kvalitetu sekvencnog slopa, rukovanju kratkim očitavanjima, mutacijskim okvirima, preklapajućim i nepotpunim genima.
Kada se traži homologija genske sekvence, kod prokariota je neophodno uzeti u obzir i horizontalni prijenos gena. Dodatni važan faktor koji se nedovoljno koristi u sadašnjim alatima za otkrivanje gena je postojanje genskih klastera – operona (koji su funkcionalne jedinice DNK koje sadrže klaster gena pod kontrolom jednog promotora) i kod prokariota i kod eukariota. Najpopularniji detektori gena, svaki gen tretiraju izolirano, neovisno o drugima, što biološki nije korektno.
Ab initio predviđanje gena je metod koji je suštinski zasnovana na sadržaju gena i detekciji signala. Zbog inherentnih troškova i poteškoća u pribavljanju vanjskih dokaza za mnoge gene, također je potrebno pribjeći pronalaženju gena ab initio, u kojem samo sekvenca genomske DNK, sistemski se traga za određenim kontrolnim znacima gena koji kodiraju proteine. Ovi se znakovi mogu široko kategorizirati kao signali specifične sekvence koji ukazuju na prisustvo gena u blizini ili kao sadržaja, statistička svojstva same sekvence koja kodira protein. Nalaženja gena ab initio mogao bi se preciznije okarakterizirati kao "predviđanje" gena, jer su obično potrebni vanjski dokazi da bi se definitivno utvrdilo da je navodni gen funkcionalan.
U genomima prokariota, geni imaju specifične i relativno dobro razumljive promotorne sekvence (signale), kao što su Pribnowov boks i faktor transkripcije mjesta vezanja, koje je lahko sistematski prepoznati. Također, sekvenca koja se kodira protein javlja se kao jedan susjedni otvoreni okvir čitanja (ORF), koji je obično dug stotinama ili hiljadama baznih parova. Statistika stop codona je takva da je čak i pronalazak otvorenog okvira čitanje ove dužine prilično informativan znak. (Budući da su tri od 64 moguća kodona u genetičkom kodu stop kodoni, u slučajnoj sekvenci očekivao bi se stop kodon na otprilike svakih 20-25 kodona ili 60-75 baznih parova.) Nadalje, protein- kodirajuća DNK ima određenu periodičnost i druga statistička svojstva, koja je lahko otkriti u sekvenci ove dužine. Ove karakteristike čine pronalaženje prokariotskih gena relativno jednostavnim, a dobro dizajnirani sistemi mogu postići visok nivo preciznosti.
Predikcija gena ab initio kod eukariota, posebno složenih organizama poput ljudi, znatno je izazovnija iz nekoliko razloga. Prvo, promotor i drugi regulatorni signali u ovim genomima složeniji su i manje razumljivi nego u prokariotima, što ih čini težim za pouzdano prepoznavanje. Dva klasična primjera signala koje identificiraju pronalazači eukariotskih gena su CpG otok i mjesta vezanja za poli (A) rep.
Drugo, mehanizmi prerade RNK u eukariotskim ćelijama znače da je određena sekvenca koja kodira protein u genomu podijeljena na nekoliko dijelova (egzona), odvojenih nekodirajućim sekvencama (intronima). (Mjesta prerade su sama po sebi još jedan signal koji su prediktori eukariotskih gena često dizajnirani da identificiraju.) Tipski gen koji kodira protein može se podijeliti na desetak egzona, svaki duži od manje od dvjesto baznih parova, a neki i do dvadeset do trideset. Stoga je u eukariotima mnogo teže otkriti periodičnost i druga poznata svojstva sadržaja DNK koja kodira protein.
Napredni prediktori gena i za prokariotske i za eukariotske genome obično koriste složene modele vjerovatnoće, kao što je skriveni Markovljev model (HMM) za kombiniranje podataka iz različitih mjerenja signala i sadržaja. Sistem GLIMMER je široko korišten i vrlo precizan pretraživač gena za prokariote. GeneMark je još jedan popularni pristup. Poređenja radi, eukariotski prediktori gena ab initio postigli su samo ograničeni uspjeh; zapaženi primjeri su programi GENSCAN i geneid. SNAP pronalazač gena zasnovan je na HMM-u poput Genscana i pokušava biti prilagodljiviji različitim organizmima, rješavajući probleme povezane s korištenjem genskog tragača na sekvencama genoma za koje nije bio uvježban.[7] Nekoliko nedavnih pristupa, kao što su mSplicer,[8] CONTRAST,[9] ili mGene[10] također koristite mašinsko učenje, tehnike kao što su podržavanje vektorskih mašina za uspešno predviđanje gena. Oni grade diskriminativni model, koristeći skriveni Markovljev mašinski vektor za podršku ili uslovno slučajno polje, da bi naučili preciznu funkciju bodovanja za predviđanje gena.
Metodi ab initio su referentni, a neki se približavaju osjetljivosti od 100% , ali kako se osjetljivost povećava, preciznost pati kao rezultat povećane lažno pozitivne vrijednosti.
Među izvedenim signalima koji se koriste za predviđanje su statistika koja proizlazi iz statistike podredov, kao št o su k-mer-statistike, izohor ili kompozicijski domen GC- sastav/ujednačenost/ entropija, sekvence i dužina okvira, intron/ egzon/donor/akceptor/promotor i rječnik ribosomnog veznog mjesta, fraktalna dimenzija, Fourierova transformacija pseudo-brojevne DNK, Z-kriva parametri i određene značajke pokretanja.[11]
Sugerira se da signali koji nisu direktno otkriveni u sekvencama mogu poboljšati predviđanje gena. Naprimjer, zabilježena je uloga sekundarne strukture u identificiranju regulacijskih motiva.[12] Pored toga, predloženo je da predviđanje sekundarne strukture RNK pomaže u predviđanju mjesta njene prerade.[13][14][15][16]
Vještačke nervne mreže su računarski modeli koji se ističu u mašinskom učenju i prepoznavanju uzoraka. Nervne mreže moraju biti uvježbane u primjerima podataka prije nego što se mogu generalizirati za eksperimentalne podatke i testirati na referentnim podacima. Neurve mreže mogu doći do približnih rješenja problema, koje je teško algoritamski riješiti, pod uvjetom da postoji dovoljno podataka o obuci. Kada se primjenjuju na predviđanje gena, ove mreže mogu se koristiti zajedno s drugim ab initio metodima za predviđanje ili identificiranje bioloških karakteristika, kao što su mjesta prerede RNK.[17] Jedanpristup[18] uključuje upotrebu kliznog prozora koji prelazi preko podataka sekvence na preklapajući način. Izlaz na svakoj poziciji je rezultat zasnovan na tome da li mreža misli da prozor sadrži mjesto za preradu donora ili mjesto za prihvatanje akceptora. Veći prozori nude veću preciznost, ali također zahtijevaju više računarske snage. Nerva mreža je primjer signalnog senzora, jer je njen cilj identificiranje funkcijskog mjesta u genomu.
Programi poput Maker kombiniraju pristupe ekstrinzičnog i ab initio mapiranja proteina i EST podataka u genomu, za provjeru predviđanja ab initio. Augustus, koji se može koristiti kao dio kanala Maker, također može sadržati savjete u obliku EST poravnanja ili proteinskih profila za povećanje tačnosti predviđanja gena. .
Kako su sekvencirani čitavi genomi mnogih različitih vrsta, obećavajući pravac u dosadašnjimim istraživanjima u pronalaženju gena je pristup uporedne genomike.
Ovo se temelji na principu da sile prirodne selekcije koja uzrokuje mutiranje gena i drugih funkcijskih elemenata sporije od ostatka genoma, jer će mutacije ovih elemenata vjerovatnije negativno uticati na organizam nego mutacije negdje drugdje. Na taj se način geni se mogu otkriti upoređivanjem genoma srodnih vrsta, kako bi se otkrio ovaj evolucijski pritisak za konzerviranje. Ovaj pristup je prvi put primijenjen na genomima miša i čovjeka, koristeći programe kao što su SLAM, SGP i TWINSCAN / N-SCAN i CONTRAST.[19]
TWINSCAN je ispitivao samo sintetizibilnost čovjeka i miša kako bi potražio ortologne gene. Programi poput N-SCAN i CONTRAST omogućavali su uključivanje poravnanja iz više organizama, ili u slučaju N-SCAN, jednog alternativnog ciljnog organizma. Upotreba višestrukih informanata može dovesti do značajnih poboljšanja u preciznosti.
CONTRAST se sastoji od dva elementa. Prvi je manji klasifikator, koji identificira mjesta prerade RNK donora i mjesta prihvatanja spojnika, kao i startni i stop kodon. Drugi element uključuje izgradnju cjelovitog modela pomoću mašinskog učenja. Razbijanje problema na dva načina znači da se manji ciljani skupovi podataka mogu koristiti za obuku klasifikatora, a taj klasifikator može raditi samostalno i biti obučen sa manjim prozorima. Puni model može koristiti neovisni klasifikator, a ne mora gubiti računarsko vrijeme ili složenost modela za ponovno klasificiranje granica intron-egzon. U radu u kojem je predstavljen CONTRAST predlaže se da se njihov metod (i TWINSCAN-ova, itd.) klasificiraju kao novi skup gena, koristeći alternativne genome i identificira se kao različit od ab initio, što koristi ciljane 'informatorske' genome.
Uporedni nalaz gena takođe se može koristiti i za projiciranje visokokvalitetnih oznaka iz jednog genoma u drugi. Značajni primjeri uključuju Projector, GeneWise, GeneMapper i GeMoMa. Takve tehnike sada imaju centralnu ulogu u označavanju svih genoma.
Pseudogeni su bliski srodnici gena, koji dijele vrlo visoku homologiju sekvence, ali nisu u mogućnosti da kodiraju isti proteinski proizvod. Iako jednom izbačeni kao nusprodukti sekvenciranje gena, kako se otkrivaju regulacijske uloge, oni postaju prediktivne mete sami po sebi.[20] Predviđanje pseudogena koristi postojeće sličnosti sekvenci i ab initio metode, uvodeći istovremeno dodatno filtriranje i metode identifikacije pseudogenskih karakteristika.
Metodi sličnosti sekvenci mogu se prilagoditi za predviđanje pseudogena, upotrebom dodatnog filtriranja za pronalaženje kandidata za pseudogene. Ovo bi moglo koristiti onemogućavanju otkrivanja, koje traži nonsens ili okvirne mutacije, koje bi mogle skratiti ili sabiti inače djelotvornu sekvencu kodiranja.[21] Pored toga, translacija DNK u sekvence proteina može biti efikasnija od same DNK homologije.
Senzori sadržaja mogu se filtrirati, prema razlikama u statističkim svojstvima između pseudogena i gena, poput smanjenog broja CpG ostrva u pseudogenima ili razlikama u G-C sadržaja između pseudogena i njihovih susjeda. Signalni senzori se takođe mogu preuređivati na pseudogene, tražeći odsustvo introna ili repova polidenina.[22]
Metagenomika je proučavanje genetičkog materijala oporavljenog iz okoline, što rezultira informacijama o sekvencama iz skupa organizama. Predviđanje gena korisno je za uporednu metagenomiku.
Metagenomski alati također spadaju u osnovne kategorije upotrebe bilo pristupa sličnosti sekvence (MEGAN4) ili tehnika ab initio (GLIMMER-MG).
Glimmer-MG [23] je proširenje za GLIMMER koje se uglavnom oslanja na ab initio pristup za pronalaženje gena i pomoću skupova treninga iz srodnih organizama. Strategija predviđanja pojačana je klasifikacijom i grupiranjem skupova podataka o genima prije primjene ab initio metoda predviđanja gena. Podaci su grupirani po vrstama. Ovaj metod klasifikacije koristi tehnike iz metagenomske filogenetske klasifikacije. Primjer softvera za ovu svrhu je Phymm, koji koristi interpolirane Markovske modele - i PhymmBL, koji integrira BLAST u rutinu klasifikacije.
MEGAN4[24] koristi pristup sličnosti sekvenci, koristeći lokalno poravnanje prema bazama podataka poznatih sekvenci, ali također pokušava klasificirati ih, koristeći dodatne informacije o funkcijskim ulogama, biološkim putevima i enzimima. Kao i u predviđanju gena za jedan organizam, pristupi sličnosti sekvenci ograničeni su veličinom baze podataka.
FragGeneScan i MetaGeneAnnotator su popularni programi predviđanja gena, zasnovani na skrivenog Markovski model. Ovi prediktori uzimaju u obzir greške u sekvenciranju, djelimične gene i rade na kratka čitanja.
Još jedan brz i precizan alat za predviđanje gena u metagenomima je MetaGeneMark.[25] This tool is used by the DOE Joint Genome Institute to annotate IMG/M, the largest metagenome collection to date.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.