Transformació de característiques d'escala invariant
algorisme de visió per ordinador per detectar, descriure i combinar característiques locals en imatges / From Wikipedia, the free encyclopedia
La transformació de característiques d'escala invariant (SIFT) és un algorisme de visió per ordinador per detectar, descriure i combinar característiques locals en imatges, inventat per David Lowe el 1999. Les aplicacions inclouen reconeixement d'objectes, mapes i navegació robòtica, costura d'imatges, modelatge 3D, reconeixement de gestos, seguiment de vídeo, identificació individual de la fauna i moviment de coincidències.[1]
Els punts clau SIFT dels objectes s'extreuen primer d'un conjunt d'imatges de referència i s'emmagatzemen en una base de dades. Un objecte es reconeix en una imatge nova comparant individualment cada característica de la imatge nova amb aquesta base de dades i trobant característiques de concordança candidates basades en la distància euclidiana dels seus vectors de característica. A partir del conjunt complet de coincidències, s'identifiquen subconjunts de punts clau que coincideixen amb l'objecte i la seva ubicació, escala i orientació a la nova imatge per filtrar les bones coincidències. La determinació de clústers consistents es realitza ràpidament utilitzant una implementació eficient de taula hash de la transformada de Hough generalitzada. Cada grup de 3 o més característiques que coincideixen amb un objecte i la seva posició està subjecte a una verificació més detallada del model i, posteriorment, es descarten els valors atípics. Finalment, es calcula la probabilitat que un conjunt particular de característiques indiqui la presència d'un objecte, donada la precisió de l'ajust i el nombre de possibles coincidències falses. Les coincidències d'objectes que superen totes aquestes proves es poden identificar com a correctes amb alta confiança.[2]