Remove ads
De Wikipédia, l'encyclopédie libre
En vision par ordinateur on désigne par détection d'objet (ou classification d'objet) une méthode permettant de détecter la présence d'une instance (reconnaissance d'objet) ou d'une classe d'objets dans une image numérique. Une attention particulière est portée à la détection de visage et la détection de personne. Ces méthodes font souvent appel à l'apprentissage supervisé et ont des applications dans de multiples domaines, tels la recherche d'image par le contenu ou la vidéo surveillance.
Selon la terminologie usuelle[1] on peut distinguer la détection, de la localisation et de la reconnaissance d'objets :
Pour des entités visuelles localisées (objet, visage, personne...), la détection et la localisation se confondent souvent. C'est différent pour des entités plus « abstraites » telles qu'intérieur/extérieur, jour/nuit, campagne/ville, etc. qui concernent plutôt la reconnaissance de scènes visuelles. Dans ce dernier cas, la localisation n'a pas toujours de sens puisque le concept est présent dans toute l'image.
La détection d'une classe d'objets est généralement considérée comme un problème plus difficile que la reconnaissance d'une instance particulière, puisqu'il faut identifier les caractéristiques communes à la classe en faisant abstraction de la variété des différentes instances au sein de ladite classe[2]. Cette variété peut être due à de multiples facteurs, notamment les conditions d'illumination ou le point de vue sous lequel a été prise la photo. Elle accroît encore dans le cas d'objets articulés (i.e non rigides) tels que les piétons ou les animaux.
L'approche générale pour détecter un objet dans une image (sans connaissance a priori sur les conditions de prise de vue) consiste en trois étapes :
Des méthodes spécifiques ont été développées pour certains types d'objets, par exemple pour la détection de visage ou la détection de personne. Ces méthodes peuvent prendre en compte des caractéristiques spécifiques de l'objet comme le rapport largeur/hauteur, la présence des yeux et de la bouche dans le cas des visages, etc.
La mise en correspondance vise à recaler les images (Exemple: SIFT)
Quand les bases d'images sont grandes, les techniques de mise en correspondance deviennent inopérantes car trop gourmandes en calcul. La méthode bag-of-visterms consiste alors à agréger les détecteurs locaux selon un vocabulaire prédéfini, le dictionnaire. Inspiré de la technique connue depuis longtemps dans le domaine du texte (bag-of-words), elle a été proposée en 2003 pour la vidéo[3].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.