Bio-informatica is de wetenschap die tot doel heeft de biologische kennis te verrijken door kennis uit de informatica toe te passen op biologische data. De bio-informatica wordt gezien als een van de deelgebieden van medische informatiekunde, in de Engelstalige vakliteratuur Biomedical Informatics genoemd.[1] Ook wordt het als belangrijk aspect van de theoretische of wiskundige biologie gezien.
De term bio-informatica werd in Nederland voor het eerst gebruikt door Paulien Hogeweg en Ben Hesper.[2][3]
In een experimenteel laboratorium worden data gegenereerd door het uitvoeren van een experimenteel onderzoek. Aan de wieg van de bio-informatica stonden toepassingen in de moleculaire biologie: de moleculaire bioloog tracht zijn vragen te beantwoorden met zijn of haar in het laboratorium gegenereerde data; de bio-informaticus doet hetzelfde maar met gegevens die hij zelf niet heeft gegenereerd, maar wel heeft gekregen van een moleculaire bioloog.
Tegenwoordig zijn computers zo krachtig dat veel omvangrijkere modellen ook mogelijk zijn van delen van of complete organismen, uiteenlopend van plantenwortels tot menselijke embryo's. Hierdoor is er ook een wisselwerking is met onder andere celbiologie, morfologie, embryologie en fysiologie. Het bouwen van dergelijke modellen en doen van numerieke experimenten is zo complex dat het een aparte discipline is, waarvoor kennis van biologie, van wiskunde en van programmeren nodig is.[4]
De biologische gegevens waarvan sprake is, zijn onder andere:
Kenmerkend voor bio-informatica is, dat er verbanden worden gelegd tussen de vele gegevens. Zo worden stukken vergelijkbaar DNA gezocht, eiwitten met vergelijkbare expressiepatronen, genetische afwijkingen die bovengemiddeld aanwezig zijn bij mensen met een bepaalde erfelijke ziekte. Niet zelden worden hierbij evolutionaire inzichten en in het bijzonder fylogenetische bomen gebruikt, die de geschiedenis van de evolutie van genen en/of organismen proberen te reconstrueren. Ook worden experimenten gedaan die simuleren wat in de natuur juist niet mogelijk is, om tot een beter begrip van bepaalde processen of ontwikkelingen te komen.
Nederland kende een eigen bio-informatica-instituut ter bevordering van het onderzoek in Nederland, het Netherlands Bioinformatics Centre of NBIC (2003-2013).
Sequentiesoftware
Sequentiesoftware wordt ingeschakeld voor het onderzoek van bijvoorbeeld de functie en ligging van een onbekend stukje DNA. Dit gebeurt met behulp van het BLAST-algoritme. Dit algoritme knipt een onbekende sequentie in kleinere stukjes en gaat op zoek in een gen- of eiwitdatabank naar een zo lang mogelijk overeenkomstig stuk. Dit principe ligt aan de basis van verscheidene andere sequentietools, waarbij iedere tool een specifiek doel heeft:
Detecteren van nieuwe genen tussen junk-DNA en/of pseudogenen.
Opbouwen/detecteren van de fylogenetische stamboom (evolutie) van organismen en genen (bijvoorbeeld genfamilies) ontstaan na genduplicatie zoals in hemoglobines.
Tegenwoordig is er een grote hoeveelheid informatie over gen- en eiwitsequenties beschikbaar. Deze informatie groeide op een zeker moment exponentieel, waarom besloten is om alles op te slaan in specifieke databanken:
Gendatabanken
Deze databanken bevatten voornamelijk informatie over bekende en onbekende DNA- en mRNA-sequenties. Tot op heden bestaan er drie grote databanken, ontwikkeld op verschillende continenten:
Voordat een onderzoeker een nieuw gen kon publiceren, diende hij de gevonden gensequentie publiek te maken door die in een van bovenstaande databanken te deponeren. Door de grote explosie aan nieuwe informatie werd het gaandeweg zeer moeilijk om alle informatie te controleren. Dit heeft geleid tot 'vervuiling' van deze databanken (="database redundancy"): iedereen had de mogelijkheid om zijn eigen stukje sequentie toe te voegen. Echter, aan deze sequentie hing soms nog een stukje vectorieel cDNA (nodig voor amplificatie) of was de sequentiëring naar aan het einde van het gen van slechtere kwaliteit, waardoor de kwaliteit achteruitging.
De laatste jaren is veel aandacht besteed aan de compatibiliteit tussen deze databanken, waarbij de focus werd gelegd op het gebruik van databankreferenties. Dit betekent dat bij het zoeken van een gen in databank X er referenties zullen staan naar hetzelfde gen in de overige gendatabanken (indien bekend).
Eiwitdatabanken
Na de opkomst van DNA-sequentiëringtechnieken liep de eiwitsequentiëring niet ver achter. Ook hiervoor was een geschikte databank nodig. Deze publieke databank eiste wel dat alle informatie eerst werd gecontroleerd en geverifieerd door experts (="curators") voordat een nieuw eiwit kon worden toegevoegd en/of aangepast.
Ook hier werden twee initiatieven gestart:
Het Europese EBI hield zich bezig met de ontwikkeling van:
Deze eiwitdatabanken groeiden uit tot een belangrijke informatiebron voor moleculaire biologen. Beide initiatieven zagen dit op tijd in en sloegen in 2003 de handen ineen. Het UniProt consortium werd gevormd en niet veel later ontstond hieruit Uni-Prot. Het doel van deze samenwerking was het optimaal aanbieden van een eiwitdatabank waarin alle bekende informatie over eiwitten gecombineerd werd tot een geheel aan annotaties en databankreferenties.
Met het begrip annotatie worden naast de kerngegevens (sequentie, referentie en taxonomische oorsprong) ook de overige gegevens verzameld:
Hoewel veel databanken in essentie dezelfde informatie bevatten, zijn er toch verschillende interfaces ontwikkeld die de gebruiker in staat stellen om informatie uit zo veel mogelijk databanken te extraheren: