Structure from motion
De Wikipédia, l'encyclopédie libre
Le principe de Structure from motion (SfM, « Structure acquise à partir d'un mouvement ») est une technique d'imagerie par intervalle (en) photogrammétrique destinée à estimer la structure 3D de quelque chose à partir d'images 2D. Elle combine la vision par ordinateur et la vue humaine. En terme biologique, le SfM désigne le phénomène par lequel une personne (et autres créatures vivantes) peut estimer la structure 3D d'un objet ou d'une scène en mouvement à partir de son champ de vision 2D (rétinien).

Principe
Résumé
Contexte



Les humains perçoivent beaucoup d'informations sur la structure 3D de leur environnement en se déplaçant à l'intérieur de celle-ci. Lorsque l'observateur bouge et que les objets se déplacent, les informations sont obtenues à partir d'images captées au fur et à mesure[1].
Déterminer une structure en se déplaçant pose un problème similaire à celui de trouver une structure avec une vision stéréoscopique. Dans les deux cas, il faut trouver la correspondance entre les images et la reconstruction en 3D de l'objet.
Pour rechercher la correspondance entre les images, les informations telles que les angles (les arêtes avec des dégradés dans plusieurs directions) sont suivies d’une image à l’autre. L’un des détecteurs de caractéristiques les plus largement utilisés est le scale-invariant feature transform (SIFT). Il utilise les maxima d'une pyramide de différence de gaussiennes comme caractéristiques. La première étape du SIFT consiste à trouver une direction de gradient dominante. Pour le rendre invariant en rotation, le descripteur est pivoté pour s'adapter à cette orientation[2]. Un autre détecteur de caractéristique très utilisé est le speeded Up Robust Features (SURF)[3]. Avec celui-ci, la différence de gaussiennes est remplacée par une matrice hessienne basée sur la détection de taches de couleur. De plus, au lieu d'évaluer les histogrammes de gradient, le SURF calcule les sommes des composants de gradient et les valeurs de leurs valeurs absolues[4]. Les caractéristiques détectées à partir de toutes les images seront ensuite mises en correspondance. L’un des algorithmes d’appariement permettant de suivre les caractéristiques d’une image à l’autre est le suiveur de caractéristiques Kanade–Lucas–Tomasi (en)[5].
Parfois, certaines des fonctionnalités correspondantes ne sont pas correctement associées. C'est pourquoi les correspondances doivent également être filtrées. Le RANSAC (RANdom SAmple Consensus) est l'algorithme généralement utilisé pour supprimer les correspondances aberrantes. Dans le document de Fischler et Bolles, le RANSAC est utilisé pour résoudre le « problème de détermination de la localisation », dont l'objectif est de déterminer les points dans l'espace qui se projettent sur une image en un ensemble de points de repère avec des emplacements connus[6].
Les trajectoires des caractéristiques au fil du temps sont ensuite utilisées pour reconstruire leurs positions 3D et le mouvement de la caméra[7]. Une alternative est donnée par les approches dites directes, où les informations géométriques (structure 3D et mouvement de la caméra) sont directement estimées à partir des images, sans abstraction intermédiaire des caractéristiques ou des angles[8].
Il existe plusieurs approches pour structurer à partir du mouvement. En SfM incrémental[9], les poses de caméra sont résolues et ajoutées une à une à la collection. En SfM globale[10],[11], les poses de toutes les caméras sont résolues en même temps. Une approche quelque peu intermédiaire est le SfM d'algorithme de mémoire externe (en), où plusieurs reconstructions partielles sont calculées et ensuite intégrées dans une solution globale.
Applications
Résumé
Contexte
Topographie
La photogrammétrie en Structure from Motion avec stéréoscopie multi-vues fournit des modèles de relief à très grande échelle utilisant des images prises à partir d'une gamme d'appareils photo numériques et éventuellement d'un réseau de points de contrôle au sol. La technique n'est pas limitée en fréquence temporelle et peut fournir des données de nuages de points comparables en densité et en précision à celles générées par le balayage laser terrestre et aérien pour une fraction du coût[12],[13],[14]. Le Structure from motion est également utile dans les environnements éloignés ou difficiles d'accès où le balayage laser terrestre est limité par la portabilité des équipements et le balayage laser aéroporté par la rugosité du terrain, entraînant une perte de données et un raccourcissement de l'image. La technique a été appliquée dans de nombreux contextes tels que les rivières[15], les badlands[16], les côtes sableuses[17],[18], les zones de failles sismiques[19], et les récifs coralliens[20]. Une diversité très différente d'appareils photo numériques peut être utilisée, y compris les reflex numériques, les appareils photo numériques compacts et même les smartphones. En règle générale, cependant, des données plus précises seront obtenues avec des appareils plus coûteux, qui incluent des objectifs de meilleure qualité optique. La technique offre donc des possibilités intéressantes pour caractériser la topographie de surface avec des détails sans précédent et, avec des données multi-temporelles, pour détecter les modifications d'élévation, de position et de volume qui sont symptomatiques des mouvements de la surface de la Terre. Le Structure from Motion peut être placé dans le contexte d'autres méthodes d'arpentage numériques.
Patrimoine culturel
Le SfM peut être utilisé pour estimer correctement le bon état du patrimoine culturel, les efforts de planification et de maintenance, ainsi que les coûts, le contrôle et la restauration. En raison de contraintes sérieuses liées à l'accessibilité des sites et à l'impossibilité d'installer des piliers d'arpentage invasifs, le SfM offre une approche non invasive de la structure, sans interaction directe entre la structure et l'opérateur. L'utilisation est précise car seules des considérations qualitatives sont nécessaires. Il est suffisamment rapide pour répondre aux besoins urgents du monument[21]. La première phase opérationnelle est une préparation précise du levé photogrammétrique où l’établissement de la relation entre la meilleure distance par rapport à l’objet, la distance focale, la distance d’échantillonnage au sol et la résolution du capteur. Avec ces informations, les acquisitions photographiques programmées doivent être effectuées avec un recouvrement vertical d’au moins 60%[22].
Voir aussi
- Reconstruction 3D à partir d'images
- Géométrie épipolaire
- Effet de profondeur cinétique (en)
- Match moving
- Champ de mouvement (en)
- Parallaxe
- Cartographie et localisation simultanées
- Factorisation Tomasi–Kanade (en)
Bibliographie
- Jonathan L. Carrivick, Mark W. Smith, Duncan J. Quincey (2016). Structure from Motion in the Geosciences. Wiley-Blackwell. 208 pages. (ISBN 978-1-118-89584-9)
- Richard Hartley et Andrew Zisserman, Multiple View Geometry in Computer Vision, Cambridge University Press, , 655 p. (ISBN 0-521-54051-8, lire en ligne)
- The Geometry of Multiple Images, MIT Press, (ISBN 0-262-06220-8)
- (en) Yi Ma, S. Shankar Sastry, Jana Kosecka et Stefano Soatto, An Invitation to 3-D Vision : From Images to Geometric Models, New York, Springer-Verlag New York, LLC, coll. « Interdisciplinary Applied Mathematics Series, #26 », , 526 p. (ISBN 0-387-00893-4)
Notes et références
Wikiwand - on
Seamless Wikipedia browsing. On steroids.