Empremta digital acústica
From Wikipedia, the free encyclopedia
From Wikipedia, the free encyclopedia
Les empremtes digitals acústiques són identificadors per a arxius d'àudio basats en el contingut del fitxer. Amb elles podem identificar un patró o "signatura" d'un arxiu d'àudio, perquè aquest pugui ser reconegut des d'una base de dades d'àudio, sense necessitat de disposar informació sobre aquest.[1] El seu ús es basa en la detecció d'una mostra d'àudio i posterior enviament a una base de dades (BD), per un cop analitzada buscar coincidències en aquesta i tornar informació sobre la mostra analitzada. Actualment ha evolucionat considerablement, ja que resulta un sistema molt ràpid i fiable en recuperació i indexació de dades, així com la reducció de la grandària dels continguts emmagatzemats al no ser necessari tenir-los al nostre equip, i per l'assignació d'una identitat a cada senyal d'àudio, per posteriorment ser tractat.
Basant-nos en la detecció freqüencial, un algorisme precís de detecció d'empremtes acústiques ha de ser capaç de:
Donat un fragment d'àudio i la seva corresponent empremta dactilar, hem de buscar la via més ràpida per trobar la seva millor coincidència. Des del nombre d'iteracions en la cerca fins a la longitud de la mostra, poden resultar computacionalment costosos. Perquè la cerca sigui eficient, el mètode de cerca ha de ser:
Podem detectar les empremtes acústiques d'un arxiu de dues maneres:
La principal diferència entre les dues, es basa en la precisió. Una anàlisi temporal implica una detecció de soroll bastant important. L'alt grau de variància dels senyals d'àudio fa molt complicada una anàlisi temporal precisa.
Utilitzant l'anàlisi freqüencial, aconseguim detectar els valors màxims de les freqüències més representatives, aconseguint evitar el soroll de fons. Això implica:
Per a la detecció d'un arxiu d'àudio, ens trobem amb dos processos. En primer lloc extraurem la informació més característica del senyal i la tractarem perquè pugui ser modificada. Després l'enviarem per comprovar si hi ha alguna informació sobre la nostra mostra.
Per a l'extracció d'empremtes dactilars, hem de tenir en compte que el procés ha de ser capaç de:
Aconseguir aquests requisits requereix un equilibri entre la reducció de la dimensionalitat[2] i la pèrdua d'informació.
Aquest bloc està compost pels blocs front-end i modelatge d'empremtes dactilars. Front-end s'encarregarà de realitzar les mesures i càlculs necessaris per extreure la informació més important de l'arxiu, on una vegada calculada, s'enviarà al modelat d'empremtes dactilars, per tractar aquestes dades i la seva respectiva representació, per al seu posterior accés a la BD.
Converteix el senyal d'àudio en una seqüència de les característiques més rellevants d'aquest. Per al seu correcte desenvolupament s'ha de tenir en compte que ha d'aconseguir:
En el seu interior trobem diversos processos que, en algunes aplicacions, poden contenir By-Pass per pre-configurar el procés.
L'àudio es digitalitza (si cal) i es converteix a un format d'àudio genèric (normalment PCM 16 bits). S'analitzarà en funció del nombre de canals i el tipus d'àudio. A més es normalitzarà i filtrarà per bandes per adequar el senyal al processat.
Els senyals acústics es consideren estacionaris quan la seva durada és de l'ordre de mil·lisegons. Es subdivideix el senyal en mostres de grandària tal que les puguem considerar estacionàries. La mida anirà en funció de la velocitat de variació del senyal.
La idea de les transformades és aconseguir un nou conjunt de característiques per reduir la redundància del senyal. Hi ha tècniques òptimes per a la transformació, com Karhunen-Loève (KL) o Singular value decomposition (SVD),[3] però, com que són tècniques computacionalment complexes, s'utilitzen tècniques més senzilles com Lourens,[4] Kurth,[5] etc. La tècnica més comuna és la FFT o transformada ràpida de Fourier, encara que també són utilitzades la transformada discreta de cosinus (DCT) o la Wavelet de Haar transformada Haar, entre altres.[6]
Un cop aconseguida la representació temps-freqüència, hem d'aplicar diversos processos per aconseguir el vector característica final. L'objectiu és novament reduir la dimensionalitat i incrementar la invariància per distorsions. S'aplicaran diverses tècniques que aprofiten les limitacions del sistema auditiu humà per aconseguir-ho, així com mesures d'energia, volum, detectors d'envoltant, etc.[7]
La majoria de les característiques descrites fins ara són mesures absolutes. Per millorar la caracterització del senyal, s'afegeixen derivades d'ordre major. El vector de característiques es crearà amb aquest paràmetre, que variarà en funció de l'algorisme utilitzat.[7][8] També és comú aplicar una resolució molt baixa en la quantificació.[9] D'aquesta manera es guanya robustesa a distorsions. Així preparem les dades perquè siguin empaquetades en funció de com es mostraran i/o consultaran.
Aquest bloc rep els vectors característiques creats en el procés anterior. S'encarregarà de processar els vectors i transformar-los en un únic vector característica (recordem que trobem diferents vectors, per a cada banda freqüencial, energies, filtres, etc.), per a posteriorment ser enviat. Novament és de vital importància la dimensionalitat dels algorismes, per evitar enviar grans quantitats d'informació a la BD. L'adaptació dels vectors variarà en funció de cada programa, els quals gestionaran la grandària de la mostra adquirida i els vectors que utilitzaran, entre altres paràmetres. Aquests programes han estat dissenyats per treballar amb Metadades, mitjançant ells rebrem la informació referent a la mostra analitzada. Actualment podem trobar diferents programes.[10][11]
Un cop creada l'empremta digital acústica, el següent pas és buscar coincidències per retornar informació sobre la nostra mostra. S'enviarà el nostre "patró" i tota la possible informació addicional creada (metadades, capçaleres, etc.) a una base de dades, per buscar qualsevol coincidència. Hem de tenir en compte dos factors que repercuteixen directament en aquest procés:
A l'hora de relacionar les característiques de la mostra, és de vital importància la distància presa entre característiques properes. Tècniques com la distància Euclidiana o la longitud Manhattan o Hamming són utilitzades per calcular aquestes distàncies. Per a una correcta cerca, tant el vector característica creat com el vector característica de la BD han d'utilitzar les mateixes tècniques, perquè les seves petjades coincideixin sense error de distància.
D'altra banda, hem de realitzar de manera eficient la recerca a la BD. Si després de crear un vector de dimensionalitat reduïda no aconseguim un algorisme de cerca eficient, el nostre esforç haurà estat en va. La tècnica més comuna es basa en la creació d'índexs, per estructurar la informació.[12] D'aquesta manera reduïm considerablement el rang de dades a consultar. Podem trobar diferents tècniques d'optimització de consulta de dades, basades en índexs, heurística, codi de paraules,[5] etc. Un cop trobada (o no) la consulta, el sistema ens tornarà tota la informació continguda en el seu BD sobre la nostra mostra, incloent títol, artista, any, àlbum, etc.
Finalment, durant la consulta a la BD, es creen resultats sobre el vector creat. Aquests resultats són utilitzats per actualitzar la BD. Amb ells s'aconsegueix actualitzar resultats anteriors, afegir nous resultats i millorar la precisió de les mostres emmagatzemades.[2] En podem consultar tota la informació i nomenclatura utilitzada en aquest últim procés.
La majoria d'aplicacions es troben en dispositius mòbils i equips de sobretaula. Tot i això s'està començant a aplicar en medicina i indexació de dades, per la seva alta velocitat d'accés a la informació (consultes ADN, per exemple).
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.