Remove ads
From Wikipedia, the free encyclopedia
Биоинформатиката е интердисциплинарна научна област која се занимава со развивање на методи и софтверски алатки за обработка на биолошките податоци. Како интердисциплинарна научна област, таа ги обединува биологијата, информатиката, информатичкото инженерство, математиката и статистиката за анализа и толкување на биолошките податоци. Биоинформатиката се користи за in silico анализи на биолошки проблеми со употреба на математички и статистички техники.
Биоинформатиката е сеопфатен термин за сите биолошки истражувања кои користат компјутерско програмирање како дел од нивната методологија, а, исто така, претставува и синоним за одредени анализи кои постојано се користат, особено во областа на геномиката. Типични примери за примена на биоинформатиката се идентификацијата на гени и еднонуклеотидни полиморфизми (анг. single nucleotide polymorphisms, SNPs). Често, оваа идентификација се користи со цел подобро да се разбере генетската основа на одредена болест, уникатни адаптации, посакувани особини (посебно кај земјоделските видови) или разлики меѓу популациите. На помалку формален начин, биоинформатиката, исто така, се обидува да ги разбере организациските принципи во низите на нуклеинските киселини и белковините.[1]
Биоинформатиката стана важен дел во многу области од биологијата. Во експерименталната молекуларна биологија, биоинформатичките техники, како што се обработката на слики и сигнали, овозможуваат екстракција на корисни резултати од големи количества на необработени податоци. Во областа на генетиката и геномиката, таа помага во секвенционирањето и анотацијата на геномите и нивните мутации. Таа игра улога во аналитиката на текстот на биолошката литература и развојот на биолошки и генетски онтологии за организација и пребарување на биолошки податоци. Таа, исто така, игра улога во анализата на генската експресија и регулација. Биоинформатичките алатки помагаат во споредбата на генетските и геномските податоци и во разбирањето на еволутивните аспекти на молекуларната биологија. На поинтегративно ниво, таа помага во анализата и категоризацијата на биолошки патишта и мрежи кои се важен дел од системската биологија. Во структурната биологија, таа помага во симулацијата и моделирањето на ДНК,[2] РНК,[2][3] белковините,[4] како и на биомолекуларните интеракции.[5][6][7][8]
Историски гледано, терминот биоинформатика не го имал истото значење кое го има денес. Полина Хогевег и Бен Хеспер го измислиле овој термин во 1970 година за да го именуваат проучувањето на информациските процеси во биолошките системи.[9][10][11] Оваа дефиниција ја сместила биоинформатиката како научно поле паралелно со биохемијата (проучувањето на хемиските процеси во биолошките системи).[9]
По одредувањето на аминокиселинската низа на инсулинот во раните 1950-ти години, од страна на Фредерик Сангер, употребата на компјутерите во молекуларната биологија станала од суштинско значење. Мануелното споредување на повеќе низи се покажало многу непрактично. Пионер во областа на биоинформатиката била американскиот физички хемичар Маргарет Оукли Дејхоф.[12] Таа ја изградила една од првите бази на податоци за белковински низи, првично објавена во форма на книги.[13] Маргарет Оукли Дејхоф ги вовела и методите за порамнување на низите, кои се од клучно значење во молекуларната еволуција.[14] Друг кој дал голем придонес во полето на биоинформатиката бил Елвин А. Кебат, кој во 1970 година бил пионер во анализата на биолошките низи.[15]
Полето на биоинформатиката еволуирало како резултат на потребата од анализа и интерпретација на растечкиот број на биолошки податоци. Биолошките податоци ги вклучуваат нуклеотидните и аминокиселинските низи, белковинските домени, белковинските структури и структурите на нуклеинските киселини.[16] Самиот процес на анализа и интерпретација на податоците се нарекува сметачка биологија. Важни поддисциплини во рамките на биоинформатиката и сметачката биологија се:
Првичната цел на биоинформатиката е зголемување на нашето разбирање за биолошките процеси. Она што ја одделува од другите биолошки дисциплини е фокусот кон развивањето и примената на компјутерските техники за постигнување на оваа цел. Примери вклучуваат: препознавање на обрасци, податочно рударење, алгоритми за машинско учење и визуелизација. Главни истражувачки напори во биоинформатиката се: порамнување на низи, предвидување на гени, асемблирање на низи, дизајнирање на лекови, откривање на лекови, порамнување на белковински структури,предвидување на структурата на белковините, предвидување на генската експресија, белковина-белковина интеракции, проучување на геномските асоцијации, моделирање на еволуцијата и клеточната делба.
Биоинформатиката го вклучува создавањето и усовршувањето на базите на податоци, алгоритмите, сметачките и статистичките техники за решавање на формалните и практичните проблеми кои произлегуваат од управувањето и анализата на биолошките податоци.
Во текот на изминатите неколку децении, брзиот развој во полето на геномиката и другите молекуларни технологии и паралелниот развој на информатичките технологии доведе до експлозија на нови податоци од полето на молекуларната биологија. Биоинформатиката всушност ги опфаќа сите математички и компјутерски пристапи кои служат за систематизација, анализа и интерпретација на сите овие нови биолошки податоци.
Чести активности во биоинформатиката се мапирањето и анализата на нуклеинските и белковинските низи, порамнувањето на ДНК и белковинските низи да се изврши споредба, како и создавањето и прикажувањето на тридимензионални модели на белковински структури.
Биоинформатиката е научна област која е слична, но одделна од биолошкото сметање, додека често се смета синонимна со сметачката биологија. Биолошкото сметање користи биоинженерството и биологијата за изградба на биолошки компјутери, додека биоинформатиката користи пресметки за подобро разбирање на биолошките процеси. Биоинформатиката и сметачката биологија вклучуваат анализа на биолошки податоци, посебно на ДНК, РНК и белковински низи. Областа на биоинформатиката доживеала експлозивен раст од средината на 1990-тите години, во голема мера поради Проектот за човечкиот геном и поради брзиот напредок во технологијата за ДНК-низирање.
Анализата на биолошките податоци за добивање на разбирливи информации вклучува пишување и работа со софтверски програми кои користат алгоритми од теоријата на графови, вештачка интелигенција, софт компјутинг, податочно рударење, обработка на слики и компјутерска симулација. Овие алгоритми зависат од теоретски основи како што се дискретна математика, теорија на контрола, теорија на систем, теорија на информации и статистика.
По секвенцнирањето на геномот на бактериофагот Phi X 174 во 1977 година,[17] биле низирани геномите на илјадници други организми. Информацијата добиена од низите се анализира за да се откријат гените кои кодираат за белковини, РНК-гени, регулаторни низи, структурни мотиви и репетитивни низи. Споредбата на гените во рамките на еден вид или помеѓу различни видови може да укаже на сличности помеѓу функциите на белковините, или сродствените односи помеѓу видовите (употреба на молекуларна систематика за изградба на филогенетски дрва). Со зголемувањето на количеството на новодобиените податоци, стана сè повеќе непрактично мануелно да се анализираат ДНК-низите. Во денешно време, сметачките програми, како BLAST, секојдневно се користат за да се пребаруваат низите на повеќе од 260 000 организми, кои содржат над 190 милијарди нуклеотиди.[18] Овие програми можат да компензираат за мутации (сменети, избришани или вметнати бази) во ДНК-низата, а можат и да идентификуваат сродни низи. Една варијанта на порамнувањето на низите се користи и во самиот процес на секвенционирање.
Пред да може низите да се анализираат, тие треба да се добијат. Секвенционирањето на ДНК сѐ уште не е тривијален проблем бидејќи необработените податоци може да бидат бучни или да даваат слаби сигнали. Развиени се алгоритми за „повикување на бази“ за различните експериментални пристапи кон секвенционирањето на ДНК.
Повеќето техники за секвенционирање на ДНК продуцираат кратки фрагменти од низата кои треба да бидат асемблирани (собрани) за да се добие комплетен ген или геном. Таканаречената техника на шотган секвенционирање (анг. Shotgun sequencing) генерира низи на илјадници мали ДНК фрагменти (чија должина се движи од 35 до 900 нуклеотиди, зависно од технологијата за секвенционирање). Краевите на овие фрагменти се преклопуваат и, кога се правилно подредени од страна на програма за асемблирање на геноми, можат да се користат за реконструкција на целиот геном. Шотган секвенционирањето е релативно брзо, но за големите геноми асемблирањето на фрагментите може да биде доста комплицирано. За големи геноми, како човечкиот, потребни се мултипроцесорни компјутери, а процесот може да потрае и денови на CPU време на голема меморија, а резултат сепак содржи бројни празнини кои потоа мора да бидат пополнети. Денес, шотган секвенционирањето е методот од избор за речиси сите геноми, а алгоритмите за асемблирање на геномот се критична област на истражување во биоинформатиката.
Во геномиката, анотацијата е процес на одбележување на гените и другите биолошки одлики во ДНК-низата. Овој процес треба да биде автоматизиран, бидејќи повеќето геноми се премногу големи за да бидат рачно анотирани. Анотацијата е возможна бидејќи гените имаат препознатливи старт и стоп региони, иако точната низа на овие региони може да варира помеѓу гените.
Првиот опис на систем за анотација на геноми бил објавен во 1995 година[19] од страна на тим при Институтот за истражување на геноми во САД, кои први извршиле комплетно секвенционирање и анализа на геномот на бактеријата Haemophilus influenzae.[19] Овен Вајт дизајнирал и изградил софтверски систем за идентификација на гените кои кодираат белковини, транспортни РНК-молекули, рибозомни РНК молекули и за првични функционални назначувања. Повеќето денешни системи за анотација на геноми функционираат на сличен начин, но програмите за анализа на геномската ДНК постојано се менуваат и подобруваат.
Еволутивна биологија е наука за потеклото на видовите, како и нивната промена со текот на времето. Информатиката се покажала како корисно средство за биолозите кои ја изучуваат еволуцијата, бидејќи им овозможила да:
Сржта на компаративна анализа на геноми е воспоставување на врска помеѓу гени (анализа на ортологија) или други геномски одлики кај различни организми. Токму овие интергеномски мапи овозможуваат да се откријат еволутивните процеси одговорни за дивергенција на два генома. Комплексноста на еволуцијата на геномот претставува голем предизвик за развивачите на математички модели и алгоритми, кои имаат на располагање цел спектар на алгоритамски, статистички и математички техники, кои варираат од егзактни, евристички, алгоритми со фиксни параметри и апроксимациони алгоритми за проблеми кои се засноваат на модели на парсимонија, до MCMC (анг. Markov chain Monte Carlo) алгоритми за Бајесова анализа на проблеми засновани на пробабилистички модели.
Многу од овие студии се засновани на детекцијата на низна хомологност за класификација на низите во белковински фамилии.[21]
Пан геномика е концепт кој бил воведен во 2005 година од страна на Тетелин и Медини и оттогаш се изучува во биоинформатиката. Пан геном е целосниот генски репертоар на одредена таксономска група: иако првично се применувал за блиску сродни видови, може да се примени и за родови, колена итн. Поделен е на - јадрен геном: збир на гени кои се заеднички за сите проучувани геноми (најчесто гени од витално значење за опстанокот) и флексибилен геном: збир на гени кои не се присутни во сите проучувани геноми. Биоинформатичката алатка BPGA може да се користи за да се одликува пан геномот на бактериски видови.[22]
Експресијата на многу гени може да се утврди со мерења на нивоата на иРНК со повеќе техники, вклучувајќи ДНК микрочипови, EST (од анг. expressed sequence tag) секвенционирање, SAGE (од анг. Serial analysis of gene expression) секвенционирање, MPSS (од анг. Massively parallel signature sequencing), RNA-Seq, позната и како WTSS (од анг. whole transcriptome shotgun sequencing), или со различни апликации на in situ хибридизација. Сите овие техники се многу склони на бучава и/или подлежат на пристрасност во биолошкото мерење, па затоа голема истражувачка област во сметачката биологија вклучува развој на статистички алатки за одделување на сигналите од бучавата во студиите за експресија на гени.[23]
Белковинските микрочипови и HT (анг. high throughput) масената спектрометрија (MS) може да дадат информации за белковините присутни во даден биолошки примерок. Во биоинформатиката се проучуваат податоците кои се добиваат со овие методи. Локализацијата на белковини во ткиво може да се изведе со помош на афинитетна протеомика прикажана како просторни податоци врз основа на имунохистохемија и ткивни микрочипови.[24]
Регулацијата е комплексна оркестрација на настани со кои даден сигнал, обично вонклеточен хормон, на крајот води кон зголемување или намалување на активноста на еден или повеќе белковини. За изучување на различни чекори од овој процес се користат голем број на биоинформатички методи.
Неколку пристапи се развиени за да се анализира локацијата на органелите, гените, белковините и други компоненти на клетките. Ова е битно бидејќи локацијата на овие компоненти влијае на процесите во клетката и на тој начин помага во предвидувањето на однесувањето на биолошките системи.
Многу значајна област во биоинформатиката е предвидувањето на структурата на белковините. Аминокиселинската низа на дадена белковина, т.н. првична структура, лесно може да се утврди од низата на генот кој ја кодира таа белковина. Во поголемиот број на случаи, првичната структура на белковината ја одредува нејзината нативна тридимензионална структура. Познавањето на оваа структура е од суштинско значење за разбирањето на функцијата на белковината. Структурните информации за една белковина обично се класифицираат како информации за неговата вторична, третична и четвртична структура.
Една од клучните идеи во биоинформатиката е идејата за хомологија. Во геномската гранка на биоинформатиката, хомологијата се користи за да се предвиди функцијата на даден ген: ако низата на генот А, чија функција е позната, е хомологна на низата на генот Б, чија функција е непозната, може да се заклучи дека Б има иста функција со А. Во структурната гранка на биоинформатиката, хомологијата се користи за да се утврди кои делови од белковината се важни за формирање на структурата и интеракцијата со други белковини. Во техниката која се нарекува хомологно моделирање, овие информации се користат за да се предвиди структурата на одредена белковина доколку е позната структурата на неговата хомологна белковина. Во моментов оваа техника останува единствениот начин за точно предвидување на белковинските структури.
Други техники за предвидување на структурата на белковините вклучуваат protein threading и de novo (од нула) физичко моделирање.
Мрежната анализа се обидува да ги разбере односите во рамките на биолошките мрежи. Иако биолошките мрежи може да се конструираат од една молекула или ентитет (како што се гени), мрежната биологија честопати се обидува да интегрира многу различни типови на податоци, како што се белковини, мали молекули, податоци за експресија на гени, итн., кои се поврзани физички, функционално, или и двете.
Системската биологија подразбира употреба на компјутерски симулации на клеточните подсистеми (како што се мрежите на метаболити и ензими кои го чинат метаболизмот, патеки за пренос на сигнали и генетски регулаторни мрежи) за да ги анализираат и визуелизираат сложените врски на овие клеточни процеси.
Други полиња на истражување на биоинформатиката вклучуваат: анализа на литература, анализа на слики, анализа на податоци за поединечни клетки, информатика на биоразновидност и интеграција на онтологии и податоци.
Базите на податоци се од суштинско значење за истражувањата и апликациите на биоинформатиката. Постојат повеќе бази на податоци, кои покриваат различни типови на информации: на пример, ДНК и белковински низи, молекуларни структури, фенотипови и биоразновидност. Базите на податоци можат да содржат емпириски податоци (добиени директно од експерименти), предвидени податоци (добиени од анализи) или, најчесто, и двете. Тие можат да бидат специфични за одреден организам, метаболички пат или молекула од интерес. Алтернативно, тие можат да инкорпорираат податоци собрани од повеќе други бази на податоци. Овие бази на податоци се разликуваат во нивниот формат, механизмот за пристап и дали се јавни или не.
Некои од најчесто користените бази на податоци се наведени подолу.
Софтверските алатки за биоинформатиката се движат од едноставни алатки на командната линија, до посложени графички програми и самостојни веб-услуги достапни од различни биоинформатички компании или јавни институции.
Многу бесплатни и со отворен код софтверски алатки за биоинформатика постоеле уште од 1980-тите години и нивниот број постојано расте.[25] Комбинацијата на континуирана потреба за нови алгоритми за анализа на новите видови биолошки отчитувања, потенцијалот за иновативни in silico експерименти и слободно достапните бази со отворен код помогнаа да се создадат можности за сите истражувачки групи да придонесат и за биоинформатиката и за опсегот на достапен софтвер со отворен код, без оглед на начинот на финансирање. Алатките со отворен код честопати делуваат како инкубатори на идеи, или приклучоци (plug-in) поддржувани од заедницата во комерцијални апликации. Тие, исто така, можат да обезбедат de facto стандарди и заеднички предметни модели за да помогнат во предизвикот на интеграцијата на биоинформациите.
Софтверски пакети со отворен код вклучуваат наслови како што се: Bioconductor, BioPerl, Biopython, BioJava, BioJS, BioRuby, Bioclipse, EMBOSS, .NET Bio, Orange (софтвер) со биоинформатичките add-on, Apache Taverna, UGENE и GenoCAD. За одржување на оваа традиција и да се создадат понатамошни можности, непрофитната Open Bioinformatics Foundation[25] ги имаат поддржано годишните BOSC (Bioinformatics Open Source Conference) од 2000 година.[26]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.