Loading AI tools
ensemble de techniques informatiques De Wikipédia, l'encyclopédie libre
La détection automatique des publicités télévisées est un ensemble de techniques informatiques qui permettent de détecter automatiquement les publicités dans un flux vidéo de télévision.
Il s'agit d'un thème qui appartient encore largement au domaine de la recherche, avec toutefois une forte implication d'industriels, notamment Philips[1] ou Google[2], ainsi que de nombreux brevets déposés. Les applications sont nombreuses et vont du magnétoscope numérique intelligent à la gestion d'archives de télévision, en passant par la vérification de la diffusion des publicités.
Les premières mentions de la possibilité d'une détection automatique des publicités sont apparues dans des brevets américains : celui de Novak[3] en 1988, celui de Blum[4] en 1992 et celui de Nafeh[5] en 1994.
Les brevets de Novak et Blum sont encore marqués par l'analogique. Ils utilisent le fait que quelques images de séparations sont présentes entre deux publicités, que ces images sont généralement noires, et donc faciles à détecter. La détection est faite dans le domaine pixellique. Nafeh utilise, quant à lui, un réseau de neurones pour apprendre et classer des clips vidéos en fonction de leurs caractéristiques sonores et visuelles. C'est la première contribution qui fait un usage explicite de méthodes d'apprentissage artificiel.
Depuis ces travaux, le nombre de brevets sur cette problématique est devenu tout à fait conséquent[6] alors que le nombre de publications scientifiques est assez modeste. Toutefois, ces brevets ne donnent pas de résultats quant à l'efficacité de leurs techniques de détection, il est donc difficile de savoir si les techniques proposées sont réellement efficaces.
Le nombre de travaux universitaires sur le sujet a véritablement commencé à devenir important à partir de 1997 et des travaux fondateurs de Lienhart[7].
Les techniques de détection font usage de plusieurs caractéristiques, supposées être caractéristiques des publicités, qui doivent en principe permettre la discrimination entre les programmes et les espaces de publicité diffusés. Ces caractéristiques sont ensuite combinées et utilisées de différentes manières afin de prendre une décision.
La caractéristique la plus répandue est la présence de séparations, encore appelées cartons monochromes, ou simplement images monochromes. Ce sont des images monochromes qui sont diffusées par la chaîne entre deux publicités, essentiellement pour permettre au téléspectateur de mieux comprendre leur enchaînement. C'est une technique utilisée dans de nombreux pays : en Allemagne[7], aux États-Unis[8], en Irlande[9], aux Pays-Bas[1]. Dans tous ces pays les images de séparation sont noires.
En France ces images existent aussi mais sont soit noires (Canal+ (gris auparavant), TF1 (bleu auparavant), M6, NT1), soit blanches (France 2, France 3, France 5), certaines portant le logo de la chaîne (C8, W9, NRJ 12). En Asie, ou sur certaines chaînes irlandaises, ces images de séparation n'existent pas[10],[9].
La détection d'images monochromes est un problème de traitement du signal simple. Toutefois, le bruit de transmission et les scènes se déroulant de nuit compliquent la tâche. Plusieurs techniques ont été proposées : le seuillage de la moyenne et de la variance des pixels de luminance[7], l'entropie de l'histogramme de luminance[11].
Certains auteurs proposent de travailler dans le domaine compressé, en supposant que le flux vidéo est du MPEG-1 ou MPEG-2. Sadlier et al.[9] proposent d'utiliser le coefficient DC de la matrice DCT de luminance d'un bloc 8×8, qui est la valeur moyenne des pixels de ce bloc. La détection des images noires est alors réalisée par un seuillage des valeurs de ce coefficient DC à partir d'une valeur moyenne de ce coefficient. Le même genre de méthode est utilisé par McGee et al.[1], qui soulignent qu'une valeur de seuil fixe semble impraticable et réajustent cette valeur de seuil à chaque occurrence d'une image qui dépasse ledit seuil.
Ces techniques entraînent un grand nombre de faux positifs, parce qu'il existe énormément d'images « quasi-monochromes » qui ne sont pas des séparations de publicités, par exemple lors d'un fondu, ou dans les scènes de nuit.
Les images monochromes de séparation sont généralement accompagnées d'instants de silence. Certains auteurs[9],[11] utilisent la détection de silence comme une source d'information supplémentaire pour rendre plus robuste la détection des séparations.
La détection de silence s'effectue en général à partir de l'énergie du signal audio. D'autres caractéristiques, tel le Zero Crossing Rate, peuvent aussi être utilisées[12]. Sur les chaînes françaises, le silence se révèle être une bonne observation, grâce à sa facilité de détection. L'énergie du signal audio tombe en effet à zéro lors des séparations entre publicités.
Certains auteurs ont remarqué que le logo de la chaîne n'était pas présent durant les publicités. La détection du logo peut donc être un indicateur intéressant. La détection de logo est toutefois une tâche difficile : logos semi-transparents, couleurs dynamiques, mouvement… De plus, la présence du logo n'est pas toujours systématique dans les programmes, d'où des faux positifs.
Une indication souvent utilisée est une mesure du taux d'activité : nombre de plans par minute, indication de mouvement… Les publicités possèdent en effet généralement un rythme de montage élevé, afin de capter l'attention des téléspectateurs.
Une des premières propositions est celle de Lienhart et al., qui calculent le nombre de coupures « brutales » entre deux plans, qu'ils estiment à 20,9 par minute pour les publicités et à 3,7 pour le reste. À cela s'ajoute une mesure de l'activité, à partir des changements dans les contours, détectés par une méthode de détection de contour, ainsi qu'à partir de la longueur des vecteurs de mouvement.
Cette observation est aussi sujette à de nombreux faux positifs : films d'action, clips, bandes annonces…
D'autres caractéristiques peuvent aussi être utilisées : la présence de texte[13] par une méthode de détection de texte. Cette dernière est un processus coûteux, faisant en général appel à des techniques de morphologie mathématique, complexes, et donc contraignantes lorsque des volumes importants de vidéo sont à traiter. De nombreux faux positifs existent aussi (génériques, bandes-annonces, journal télévisé…).
D'autres caractéristiques sont parfois évoquées : les sous-titres télétexte, la présence simultanée de musique et de parole…
Parfois mentionné, le volume sonore ne semble pas être une observation fiable. Une étude faite par l'ENST[14] sur des chaînes françaises a montré que l'augmentation du volume existait sur seulement 50 % des séquences publicitaires, ce qui ne permet pas d'utiliser le volume comme une observation discriminante. De plus, la loi française régulant le volume sonore des publicités télévisées, par l'article 14 du décret no 92-280 du , les chaînes seraient en infraction si c'était effectivement le cas.
Satterwite et Marques[15] identifient deux types de méthode de détection : les méthodes à base de caractéristiques et les méthodes de type reconnaissance.
Dans ce type de méthode, les auteurs choisissent un ensemble de caractéristiques discriminantes et élaborent des algorithmes à base de règles ou des algorithmes d'apprentissage.
De simples règles sont parfois utilisées, par exemple en imposant des conditions sur la durée et la position des images monochromes[9],[1]. Ces méthodes font appel à beaucoup d'a priori, sont donc difficilement généralisables, et ne sont pas robustes à un changement de la structure de diffusion.
Une catégorie relativement importante de travaux consiste à réaliser un apprentissage sur les caractéristiques, en se basant en général sur une segmentation en plans effectuée au préalable. Il a ainsi été proposé d'utiliser un modèle de Markov caché à deux états, publicité et non-publicité, avec deux caractéristiques : la présence du logo et la durée des plans[16]. Les modèles de séparateurs à vaste marge sont utilisés par Hua et al.[17] pour classer chaque plan, à partir de nombreuses caractéristiques vidéos de bas niveau mais aussi de caractéristiques audio un peu plus sophistiquées : la présence de transitions audio et une classification en parole, musique et bruit.
Une technique de boosting contraint temporellement a aussi été proposée par Liu et al.[10], en utilisant diverses caractéristiques audio et vidéo de bas niveau (ECR, énergie audio…) calculées sur chaque plan.
Ces techniques d'apprentissage statistique font moins d'a priori sur la structure des publicités, mais produisent de moins bons résultats que les techniques à base de règle ou de reconnaissance, principalement à cause du fait qu'il est difficile d'identifier un plan comme étant une publicité par ses seules caractéristiques sonores ou visuelles.
Ce type de méthode consiste à reconnaître les publicités lors de leur diffusion. Ceci nécessite la présence d'une base de publicités connues à l'avance. La détection est alors ramenée à une comparaison avec les éléments de la base. Une telle méthode est justifiée par le fait que les publicités sont diffusées un grand nombre de fois, les annonceurs achetant un certain nombre de diffusions de leur publicité. Une fois qu'une publicité est dans la base, il est alors possible de détecter toutes ses rediffusions. La reconnaissance est une méthode assez fiable, et qui donne des résultats complémentaires par rapport aux méthodes à base de caractéristiques.
La reconnaissance a été proposée dès les travaux de Lienhart et al.[7] en 1997. Le principe général est de calculer une signature, ou fingerprint, sur l'image ou l'audio, et de définir ensuite une distance entre signatures pour pouvoir les comparer. C'est un principe aussi utilisé en recherche d'image par le contenu. La spécificité provient du fait que la notion de « similarité » est ici bien mieux définie : il s'agit d'une copie quasi à l'identique, abstraction faite du bruit de transmission.
Les signatures doivent donc être robustes aux bruits apparaissant dans la chaîne de transmission : variations de luminosité, de couleur, artefacts de compression… et doivent répondre à des exigences de complexité. En conséquence, les signatures proposées sont compactes et intègrent des informations considérées comme caractéristiques de l'image elle-même, et non caractéristiques d'une certaine classe d'image, comme en recherche d'image par le contenu. Les signatures ont donc un grand pouvoir discriminant.
Plusieurs définitions de signatures à partir de l'image ont été proposées : le color coherence vector[18],[7], sélection et quantification des coefficients ondelettes[19], DCT[11], les moments d'ordre 1, 2 et 3 des trois canaux RVB[20], ou encore à partir de l'analyse en composantes principales sur les histogrammes couleurs[21].
Quelques travaux mentionnent aussi la possibilité d'utiliser des signatures audio, par exemple en calculant un spectrogramme sur plusieurs bandes de fréquences[2], ou une technique plus générique proposée par Herley[22].
Une des difficultés est liée à la complexité de ces méthodes lorsque aucune technique d'indexation de la base n'est utilisée : il faut en effet parcourir l'ensemble de la base à chaque instant pour pouvoir reconnaître un segment. La distance utilisée pour mesurer la similarité entre signatures pouvant nécessiter beaucoup de calculs, il existe un vrai problème de complexité.
Afin de remédier à ce problème, certains auteurs[2],[20],[11] proposent d'utiliser des techniques de hachage perceptuel. Ceci consiste à utiliser la signature comme un index, ce qui permet alors un accès direct à la base grâce par exemple à une structure de données telle qu'une table de hachage. On s'affranchit alors de la complexité liée à une recherche séquentielle de la base.
D'autres types de méthode existent, comme l'utilisation du tatouage, qui consiste à insérer au préalable une marque dans le flux vidéo à détecter. C'est une technique robuste mais contraignante, puisqu'elle nécessite que les publicités soient tatouées avant d'être diffusées. L'utilisation du tatouage est donc en pratique restreinte à une seule classe d'application : le suivi de la diffusion des publicités.
Une technique originale proposée par Poli et al.[23] consiste à prédire les horaires de début et de fin d'émissions et leurs types, grâce à un modèle de Markov caché contextuel. Les instants de publicités peuvent alors se déduire de la structuration ainsi produite.
La principale difficulté vient du fait que les modes de diffusion des publicités sont différents d'un pays, voire d'une chaîne à l'autre. En conséquence, les techniques proposées sont généralement adaptées à un pays, et il semble difficile de développer une méthode générique.
De plus, il existe de réelles difficultés pour les scientifiques à disposer d'un corpus suffisamment volumineux et provenant de pays différents, ainsi que le problème récurrent de la vérité terrain[Quoi ?]. Les méthodes sont ainsi généralement validées sur des corpus relativement réduits de quelques heures. Certains travaux commencent toutefois à valider leurs résultats sur des corpus plus importants (4 jours pour Covell et al.[2]).
Les performances des algorithmes sont généralement évaluées par des mesures issues de la recherche d'information : le rappel et la précision . Si le nombre d'unités correctement classées est , le nombre d'unités manquées est , et le nombre d'unités fausses est alors la précision et le rappel sont donnés par :
Il n'existe pas de consensus sur le type d'unité à choisir. La plupart des auteurs choisissent comme unité la publicité elle-même. Les mesures de précision et de rappel ont alors une interprétation intuitive[24], mais peu précise : on ne sait pas si la publicité est détectée dans sa totalité ou non.
La petite taille des corpus fait que les résultats sont parfois à relativiser. Shivadas et al. annoncent 96 % de rappel et 100 % de précision sur un corpus de seulement deux heures, comportant 63 publicités. Covell et al.[2] obtiennent, quant à eux, 95 % de rappel et 99 % de précision sur 96 heures de télévision. Ces bons résultats sont dus à des méthodes de type reconnaissance. Les méthodes basées sur des caractéristiques sont généralement moins performantes. À titre d'exemple, McGee et al.[13] rapportent une précision de 94 % et un rappel de 87 % sur treize heures.
D'autres auteurs utilisent le plan comme unité[17],[10]. C'est une mesure qui permet une meilleure précision temporelle, mais d'interprétation délicate. Les plans pouvant être de nombre et de longueur variable. Hua et al. obtiennent 92 % en rappel et précision sur un corpus de 10 heures.
Enfin, certains auteurs utilisent l'image comme unité[25]. L'interprétation est alors simple puisque cela devient une unité de mesure temporelle. Par exemple, Chen et al. obtiennent 94 % de rappel et 92,5 % de précision sur sept heures.
Il existe plusieurs applications à la détection automatique des publicités. Satterwite et Marques[15] en distinguent deux types :
Seule l'application de suivi fait aujourd'hui l'objet de services commerciaux, les autres applications présentées ici, bien que reconnues, ne sont que prospectives.
Le suivi de publicités consiste à détecter toutes les occurrences d'une publicité particulière à la télévision. Ceci est fait à la demande d'un annonceur, qui souhaite vérifier si le contrat qu'il a passé avec le diffuseur est bien respecté. Les sommes extrêmement importantes payées par l'annonceur au diffuseur, en fonction de l'horaire de diffusion de la publicité sont notamment à l'origine de cette pratique. Celle-ci s'est répandue après qu'un scandale a éclaté au Japon, lorsque certains annonceurs se sont aperçus que les chaînes ne diffusaient pas correctement leurs publicités[réf. nécessaire].
Un autre intérêt du suivi est de pouvoir détecter le nombre et les horaires de diffusion des publicités d'un concurrent, afin d'estimer son budget dépensé en publicité télévisée.
De nombreuses entreprises proposent des solutions commerciales de suivi de publicités[26],[27], généralement par des méthodes de signatures visuelles ou de tatouage. Les solutions basées sur le tatouage ne permettent cependant pas l'application de suivi des publicités des concurrents.
La deuxième grande application est de détecter les publicités pour pouvoir les supprimer, ou tout du moins avoir le choix de les regarder ou pas. C'est évidemment une thématique orientée vers les téléspectateurs, destinée à être implémentée dans un PVR.
Cette possibilité a déclenché l'inquiétude des diffuseurs, notamment aux États-Unis avec la sortie de TiVo, malgré son simple système manuel (un bouton permet d'avancer de 30 secondes, ce qui est la durée moyenne d'une publicité). Certaines estimations chiffrent les pertes pour les annonceurs à 8 milliards de dollars pour l'année 2006[28]. Des diffuseurs ont même menacé d'augmenter le coût de l'abonnement au câble et au satellite pour compenser la perte de revenu[15].
Des inquiétudes se sont aussi manifestées au Japon, le président du National Association of Commercial Broadcasters, Hisashi Hieda, ayant même qualifié cette possibilité d'illégale[29].
En raison de l'opposition des diffuseurs et des problèmes juridiques, il est probable que l'application commerciale soit difficile à mettre en œuvre, voire totalement compromise. À l'opposé, des solutions non commerciales issues du monde des logiciels open source ont implémenté la suppression de publicité. Le logiciel de type centre multimédia MythTV est ainsi capable de détecter avec un bon pourcentage de réussite les publicités, de les sauter lors de la visualisation, voire de les supprimer définitivement d'un enregistrement.
Les organismes chargés de la gestion d'archives de télévision, tels l'Institut national de l'audiovisuel en France, ont aussi un intérêt à la suppression de publicités de France Télévisions sur le service public après 20h depuis janvier 2009, qui permettrait une réduction des coûts de stockage, ainsi qu'une facilitation de la recherche et de la navigation au sein des collections. Cette réduction est loin d'être négligeable puisqu'une étude a montré qu'à la télévision française, sur 20 jours de diffusion continue, 11,5 % du temps n'est pas consacré à des programmes[11]. Une autre étude[20] a montré que le gain en termes de compression pouvait atteindre 30 %, si l'on considère l'ensemble des diffusions répétées (ceci ne concerne donc pas uniquement les publicités).
Une autre application est mentionnée par Covell et al.[2], parfois appelée repurposing. Il s'agit d'une ré-utilisation de contenu déjà diffusé, qui contient des publicités. Le problème est ici de détecter les publicités afin de les remplacer par des plus récentes ou mieux adaptées à l'audience.
Enfin une application pourrait être d'automatiser la surveillance du respect de la réglementation dans le domaine de l'audiovisuel. En France par exemple, le Conseil supérieur de l'audiovisuel est chargé de la vérification des lois sur la diffusion des publicités à la télévision, qui est soumise à un certain nombre de contraintes, notamment en termes de durée des écrans publicitaires[30].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.