GeneCards é unha base de datos de xenes humanos que proporciona información xenómica, proteómica, transcritómica, xenética e funcional sobre todos os xenes humanos coñecidos e preditos.[1][2][3][4] Está sendo desenvolvida e mantida polo Crown Human Genome Center no Instituto de Ciencia Weizmann.
Esta base de datos ten o obxectivo de proporcionar un rápido resumo da información biomédica actualmente dispoñible sobre o xene procurado, incluíndo os xenes humanos, as proteínas codificadas e doenzas relevantes.[1][5][6] A base de datos GeneCards proporciona acceso a recursos na web libres sobre todos os máis de 7000 xenes humanos coñecidos procedentes de máis de 90 fontes de datos, como HGNC, Ensembl e NCBI. A lista central de xenes está baseada nos símbolos de xenes aprobados publicados polo HUGO Gene Nomenclature Committee (HGNC).[7][8] A information recompílase coidadosamente e selecciónase desas bases de datos polo seu motor potente e doado de usar. Se a busca non proporciona ningún resultado, esta base de datos fai varias suxestións que axudan aos usuarios a realizar a súa busca dependendo do tipo de demanda que se faga, e ofrece ligazons directas a outros motores de busca de bases de datos.[1] Co tempo, a base de datos GeneCards desenvolveu un conxunto de ferramentas (GeneDecks, GeneLoc, GeneALaCart) que ten capacidades máis especializadas. Desde 1998, GeneCards foi amplamente utilizada pola comunidade bioinformática, xenómica e médica desde hai máis de 15 anos.[7][8]
Desde a década de 1980, a información sobre secuencias xenómicas é cada vez máis abundante, e moitos laboratorios empezaron a almacenar esta información en repositorios centrais, as bases de datos primarias.[9]
Porén, a información proporcionada polas bases de datos de secuencias primarias (bases de datos de baixo nivel) centrábanse en diferentes aspectos. Para xuntar estes datos espallados, o Crown Human Genome Centre do Instituo de Ciencia Weizmann desenvolveu unha base de datos chamada ‘GeneCards’ en 1997. Esta base de datos trata principalmente a información xenómica humana, xenes humanos, funcións de proteínas codificadas e enfermidades relacionadas.[1]
Inicialmente, a base de datos GeneCards tiñas dúas características principais: entrega de información biomédica integrada para un xene en formato de ‘card’ (carta, tarxeta), e un motor de busca baseado en texto. Desde 1998, a base de datos integrou máis fontes de datos e tipos de datos, como a expresión de proteínas e información da rede de xenes. Tamén mellorou a velocidade e sofisticación do motor de busca e ampliouse desde un dogma centrado nos xenes a conter análises de conxuntos de xenes. A versión 3 da base de datos reúne información de máis de 90 recursos de bases de datos baseados nunha lista de xenes consolidados. Tamén engadiu un conxunto de ferramentas de GeneCards que se centran en obxectivos máis específicos. "GeneNote e GeneAnnot para análises de transcritomas, GeneLoc para localizacións e marcadores xenómicos, GeneALaCart para buscas en lote e GeneDecks para encontrar parellas funcionais e para destilacións de conxuntos de xenes.". A base de datos actualízase nun ciclo de 3 anos de planificación, posta en funcionamento, desenvolvemento, aseguramento da calidade e uso semiautomatizados. Entre as tecnoloxías usadas están Eclipse, Apache, Perl, XML, PHP, Propel, Java, R e MySQL.[7][8]
GeneCards é de acceso libre para institucións sen ánimo de lucro con propósitos educativos e de investigación en https://www.genecards.org/ e sitios espello académicos.
GeneDecks
GeneDecks é unha nova ferramenta de análise para identificar xenes similares ou parellas de xenes, que proporcionan unha similitude métrica ao salientar descritores compartidos entre xenes, baseados na riqueza de GeneCards en anotacións combinatorias de xenes humanos.
Combinatoria da anotación: usando GeneDecks, pode obterse un conxunto de xenes similares a un determinado xene cunha anotación combinatoria seleccionada. A táboa resumo que presenta os datos mostra os xenes en orde do diferente nivel de semellanza entre os xenes identificados e o xene sonda.
Unificación da anotación: a miúdo fontes de datos diferentes ofrecen anotacións cun sistema de nomenclatura heteroxéneo. A unificación da anotación de GeneDecks está baseada na semellanza nos algoritmos de detección do espazo de contido de xenes de GeneCards.
Caza da parella: no Partner Hunter de GeneDecks, os usuarios introducen unha busca para un xene, e o sistema busca xenes similares (parellas) baseados na semellanza combinatoria dos atributos ponderados.
Destilación do conxunto: en Set distiller, os usuarios introducen un conxunto de xenes, e o sistema ordena os atributos polo seu grao de compartición de secuencias dentro dun conxunto dado de xenes. Igual que Partner Hunter, permite facer unha sofisticada investigación dunha variedade de conxuntos de xenes, de diversas orixes, para descubrir e dilucidar padróns biolóxicos relevantes, o que mellora a xenómica sistemática e o escrutinio de bioloxía de sistemas.[8][10][11]
GeneALaCart
GeneALaCart é un motor de busca por lotes orientado a conxuntos de xenes baseados na base de datos GeneCards. Permite recuperar información sobre múltiples xenes nunha busca en lotes.[7][12]
GeneLoc
A suite GeneLoc presenta un mapa cromosómico humano integrado, o cal é moi importante para deseñar un chip de captura feito á medida, baseado en datos integrados polo algoritmo de GeneLoc. GeneLoc inclúe máis ligazóns a GeneCards, o Human Genome Sequencing do NCBI, UniGene, e recursos de mapado.[7][13]
Busca
Primeiramente, introdúcese o que se quere buscar na caixa do buscador da páxina web. Os métodos de busca inclúen as seguintes opcións: Palabras clave, Símbolos só, Símbolos/Alias/Identificadores e Símbolos/Alias.[5] A opción de busca por defecto é buscar por palabras clave. Cando se busca por palabras clave, móstranse MicroCard e MiniCard. Porén, cando se busca por símbolo só, vaise directamente a GeneCard.[14]
Aldemais, pode mellorarse a busca clicando en busca avanzada, onde se pode escoller a sección, categoría, GIFtS, fonte de símbolos e conxuntos de xenes directamente. As seccións inclúen Alias & Descricións, Trastornos, Fármacos & Compostos, Expresión en Tecidos Humanos, Función, Localización Xenómica, Variantes Xenómicas, Ortólogos, Parálogos, Vías & Interaccións, Dominios proteícos/Familias, Proteínas, Publicacións, Resumos e Transcritos. A opción por defecto é buscar en todas as sección.[5]
As Categorías implican xenes codificadores de proteínas, pseudoxenes, xenes de ARN, loci xenéticos, clusters de xenes e non categorizados. A opción por defecto é buscar en todas as categorías.[5] GIFtS é o cálculo de funcionalidade inferida de GeneCards, que proporciona números obxectivos para mostrar o nivel de coñecemento sobre a funcionalidade de xenes humanos. Inclúe os niveis Alto, Medio, e Baixo ou pódese introducir un rango calquera.[4][15] Fonte de símbolos inclúe HGNC (HUGO Gene Nomenclature Committee), EntrezGene (información centrada nos xenes no NCBI), Ensembl, xenes de ARN de GeneCards, CroW21 e así sucesivamente.[5]
Ademais, pódese elixir buscar todas as GeneCards ou só dentro dun conxunto de xenes, o que sería máis específico e tería prioridade.
En segundo lugar, a páxina de resultados da investigación mostra todas as minicartas relevantes. Nesta páxina móstranse os menús Símbolo, Descrición, Categoría, GIFtS, GC id e Cálculo.[5] Hai que clicar no botón plus para cada unha das minicartas se se quere abrir a minicarta. Ademais, pódese clicar directamente no símbolo para ver os detalles dunha determinada GeneCard.
Unha determinada GeneCard consta dos seguintes contidos:
Encabezamento: consta do símbolo do xene, a súa categoría (por exemplo, codificador de proteínas), GIFtS (por exemplo, 74) e GCID (por exemplo, GC19M041837). Diferentes categorías teñen distintas cores para expresar o seguinte: xenes codificantes de proteínas, pseudoxenes, xenes de ARN, clústers de xenes, loci xenéticos e non categorizados. O fondo indica a fonte do símbolo: xenes aprobados porHGNC, base de datos EntrezGene, base de datos Ensembl, ou xenes xerados por GeneCards.
Alias: os alias, como o seu nome indica, mostran sinónimos e alias dos xenes de acordo con diversas fontes como HGNC. A columna da dereita mostra como se asocian os alias cos recursos e indica identificadores GC previos.
Resumos: a columna esquerda é a mesma que a do alias, que mostra as fontes. A columna da dereita proporciona aquí un breve resumo na función de xenes, localización e efecto sobre o fenotipo de varias fontes.
Vistas xenómicas: ademais das fontes, esta sección dá secuencias de ADN referencias, elementos regulatorios, epixenética, banda cromosómica e localización xenómica de diferentes fontes. A liña vermella da imaxe de arriba indica a localización xenética integrada de GeneLoc. En particular, se a localización xenética de GeneLoc é diferente da localización en Entrez Gene, móstrase en verde; aparece en azul cando a localización integrada de GeneLoc difire da localiación en Ensembl. Ademais, pode accederse a detalles a través das ligazóns da sección.
Proteínas: esta sección presenta a información anotada dos xenes, incluíndo o seu nome recomendado, tamaño, subunidade, localización subcelular e accesos secundarios. Ademais, preséntanse as modificacións postraducionais, datos de expresión da proteína, proteínas REF SEQ, proteínas ENSEMBL, detalles do reactoma, produtos proteicos recombinantes humanos, Gene Ontology, produtos de anticorpos e produtos de ensaios.
Dominios proteicos/Familias: esta sección mostra información anotada de dominios e familias proteicos.
Función: a sección función describe a función do xene, incluíndo: fenotiposs humanos, dianas ás que se une, shRNA humanos ou de rato/rata, xenes dianas de miARN, produtos RNAi, miARNs ortólogos humanos e de rato/rata, edición de xenes, clons, liñas celulares, modelos animais, ensaios de hibridación in situ.
Vías & Interaccións: esta sección mostra as vías de GeneCards unificadas e as interaccións de diferentes fontes. As vías unificadas de GeneCards reúnense en supervías, que mostran a conexión entre diferentes vías. A interacción mostra detalles das interaccións e dos interaccionantes.
Fármacos & Compostos: esta sección conecta GeneCards con fármacos e compostos. Os compostos TOCRIS mostran compostos, a acción e o número CAS. DrugBank dá compostos, sinónimos, número CAS (número de rexistro de resumos químicos), tipo (transportador/diana/portador/encima), as accións e IDs de PubMed. HMDB e Novoseek mostran as relacións dos compostos químicos, que inclúen compostos, sinónimos, número CAS e IDs de PubMed (artigos relacionados cos compostos). BitterDB mostra compostos, número CAS e SMILES. PharmGKB proporciona os fármacos/compostos e as súas anotacións.
Transcritos: esta sección consta de ARNm secuencia de referencia, Unigene Cluster e secuencias representativas, produtos de miARN, produtos inhib.RNA, produtos clons, produtos primer (cebadores) e secuencias de ARNm adicionais. Ademais, pódense obter as estruturas de exóns de GeneLoc.
Expresión: a columna da esquerda mostra os recursos dos datos. Nesta seción inclúense imaxes de expresión e datos, xenes similares, matrices de PCR, cebadores para humanos e ensaios de hibridación in situ.
Ortólogos: esta sección proporciona ortólogos para un xene particular de varias especies. A táboa mostra o organismo correspondente, clasificación taxonómica, xene, descrición, similitude humana, tipo de ortoloxía e detalles. Está conectada a ENSEMBL Gene Tree e TreeFam Gene Tree.
Parálogos: esta sección mostra parálogos e pseudoxenes para un xene particular.
Variantes xenómicas: en variantes xenómicas móstrase o resultado de SNPs/Variantes do NCBI, informes de desequilibrios de ligamento HapMap, variacións estruturais, base de datos de mutacións en xenes humanos (HGMD), cebadores de PCR de longo rango QIAGEN SeqTarget humanos e de rato e rata, e matrices de PCR de mutacións de cancro de SABiosciences. A táboa mostra nesta sección ID de SNP, outras chamadas Válido, Importancia clínica, Chr pos, Secuencia para datos xenómicos, AAChg, Tipo e Máis para datos relacionados coa transcrición, frecuencia alélica, Pop, Mostra total e Máis para frecuencias alélicas. Para Válido, os diferentes caracteres representan distintos métodos de validación. ‘C’ significa by-cluster; ‘A’ é by-2hit-2allele; ‘F’ é by-frequency; ‘H’ é by-hapmap e ‘O’ é by-other-pop. A Importancia clínica pode ser unha das seguintes: non patóxeno, patóxeno, resposta a fármacos, histocompatibilidade, probable non patóxeno, probable patóxeno, non probado, descoñecido e outros. Tipo debería ser un destes: nonsynon, syn, cds, spl, utr, int, exc, loc, stg, ds500, spa, spd, us2k, us5k, PupaSUITE Designations.
Trastornos/Enfermidades: mostra os trastornos/enfermidades asociados co xene.
Publicactións: mostra publicacións asociadas co xene.
Buscas externas: pódese buscar máis información en PubMed, OMIM e NCBI.
Bases de datos xenómicas: Outras bases de datos e bases de datos especializadas.
Propiedade intelectual: esta sección proporciona información de patentes e tecnoloxías con licenza.
Produtos.
GeneCards é amplamente usado no campo biolóxico e biomédico. Por exemplo, S.H. Shah extraeu datos da enfermidade das arterias coronarias de comezo temperán de GeneCards para identificar xenes que contribúen á enfermidade. Confirmouse que as localizacións cromosómicas 3q13, 1q25 etc. teñen efectos nesta doenza e o seu artigo discutía tamén as relacións entre os xenes mórbidos e as lipoproteínas do soro sanguíneo con axuda de GeneCard.[16]
Outro exemplo é unha investigación sobre a letalidade sintética do cancro. A letalidade sintética aparece cando unha mutación nun só xene non ten efecto sobre a función dunha célula pero unha mutación nun xene adicional orixina a morte da célula. Este estudo pretendía atopar novos métodos de tratar o cancro ao bloquear a letalidade dos fármacos. GeneCards foi utilizado para comparar datos dun xene diana dado con todos os xenes posibles. Nese proceso, calculouse a anotación do valor de compartición usando GeneDecks Partner Hunter (agora chamado Genes Like Me) para proporcionar a paroloxía. Extraéronse as tarxetas de inactivación despois de facer experimentos de micromatrices de liñas de células de neuroblastoma resistentes e non resistentes.[7]
Stelzer G, Inger A, Olender T, Iny-Stein T, Dalah I, Harel A, Safran M, Lancet D (December 2009). "GeneDecks: paralog hunting and gene-set distillation with GeneCards annotation". OMICS13 (6): 477–87. PMID20001862. doi:10.1089/omi.2009.0069.
Shah, S. H.; et al. (2006). "Serum lipids in the GENECARD study of coronary artery disease identify quantitative trait loci and phenotypic subsets on chromosomes 3q and 5q". Annals of Human Genetics70 (6): 738–748. PMID17044848. doi:10.1111/j.1469-1809.2006.00288.x.