Loading AI tools
proyecto de investigación bioinformática De Wikipedia, la enciclopedia libre
Ensembl es un proyecto de investigación bioinformática que trata de "desarrollar un sistema de software que produzca y mantenga anotaciones automáticas en los genomas eucariotas seleccionados". Funciona como una colaboración entre el Wellcome Trust Sanger Institute y el Instituto Europeo de Bioinformática, una división del Laboratorio Europeo de Biología Molecular. Toda la información y software generados en el proyecto es de libre uso y acceso.[2][3]
Ensembl | ||
---|---|---|
Tipo | Base de datos biológicos y en línea del Proyecto Ensembl | |
Sede central | Instituto Europeo de Bioinformática (EBI) | |
Sitio web | https://www.ensembl.org | |
Yates, et al. (2020)[1] | ||
La mayoría del software producido y utilizado se escribe en el lenguaje de programación Perl, y se basa en las librerías BioPerl. La Application programming interface de Perl puede utilizarse fácilmente en otros proyectos genómicos, por ejemplo en la anotación de genes o listas de clones. También hay disponible una API para Java.
El genoma humano está compuesto de 3 mil millones de bases, que codifican aproximadamente para 20 000 - 25 000 genes. Sin embargo, el genoma por si sólo es de poca utilidad sin identificar la localización y relaciones entre genes individuales. Una opción es anotarlos manualmente, donde un equipo de investigadores puede localizar genes mediante datos experimentales extraídos de revistas científicas y datos públicos. Este procedimiento manual es un proceso lento y tedioso. La alternativa es la anotación automática, en la que se realiza la búsqueda de patrones mediante herramientas computacionales desde proteínas al ADN.[4][5] En 1999 se lanzó el proyecto Ensembl en respuesta a la inminente finalización del Proyecto Genoma Humano, con los objetivos iniciales de anotar automáticamente el genoma humano, integrar esta anotación con datos biológicos disponibles y hacer público todo este conocimiento.[6]
En el proyecto Ensembl, los datos de secuenciación son procesados por el sistema de anotación de genes (una colección de pipelines escritos en Perl), el cual predice un conjunto de genes y los guarda en una base de datos en MySQL para posteriores análisis y visualización. Ensembl publica estos datos a toda la comunidad científica mundial. Todos los datos y código producido por el proyecto Ensembl están disponibles para su descarga, existiendo también un servidor de acceso remoto para acceder a estos.[7] Además, es posible visualizar gran parte de los datos generados computacionalmente en el sitio web de Ensembl.
El proyecto se ha expandido con el tiempo, incluyendo nuevas especies (organismos modelo relevantes como el ratón, Drosophila melanogaster y el pez cebra), así como un mayor repertorio de datos genómicos, incluyendo variantes genéticas y elementos reguladores. Desde abril de 2009, el proyecto hermano Ensembl Genomes ha expandido el alcance de Ensembl hacia organismos invertebrados, tanto animales, plantas, hongos, bacterias como protistas, centrándose en describir el contexto taxonómico y evolutivo de genes, mientras que el proyecto original continúa enfocado en organismos vertebrados.[8][9]
A fecha de 2020, Ensembl guardaba más de 50 000 genomas entre las bases de datos de Ensembl y Ensembl Genomes, incluyendo algunas innovadoras características como Rapid Release, un sitio web diseñado para publicar más rápidamente datos de anotación de genomas, y COVID-19, un portal de acceso al genoma de referencia del virus SARS-CoV-2.
Los genomas anotados incluyen los vertebrados más completos, y organismos modelo seleccionados. A fecha de 2022, hay 271 especies registradas en la base de datos, incluyendo:[10]
Este servicio se utiliza por los biólogos moleculares y bioinformáticos de todo el mundo que trabajan con genomas de las especies listadas. Las predicciones de codificación, control y otros elementos en los genomas pueden compararse con datos de investigaciones primarias y con fuentes primarias de conocimiento genómico actualizado (bases de datos biológicas). La sintenia es de valor educativo en los colegios.
En una investigación realizada en 2014 se empleó Ensembl para el análisis genómico de conejo en busca de cambios fenotípicos durante su domesticación, es así que se realizó el ensamblaje del genoma que junto con la secuenciación de RNA de conejo y datos de ortólogos humanos, se obtuvieron regiones no traducidas (UTRs) (168,286 características distintas), regiones no codificantes de RNA (n=9666), y no elementos no codificantes conservados (2.518.476 características distintas). Esta información permitió agrupar las muestras para el análisis de la secuenciación genómica y sus modificaciones durante la domesticación de los conejos[11]
Todos los datos del proyecto Ensembl, así como el software, son de acceso libre, estando disponibles para toda la comunidad científica bajo una licencia CC BY 4.0. Actualmente, el sitio web de Ensembl tiene cuatro espejos diferentes en el mundo para mejorar su servicio.
Sitios web espejo oficiales |
---|
Servidor de Reino Unido (Instituto Sanger) ---- Sitio web principal |
Servidor de la costa oeste de EE. UU. (Amazon AWS) ---- Espejo en la nube |
Servidor de la costa este de EE. UU. (Amazon AWS) ---- Espejo en la nube |
Servidor de Asia (Amazon AWS) ---- Espejo en la nube, en Singapur |
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.