Loading AI tools
De Wikipédia, l'encyclopédie libre
La culturomique est une discipline issue des sciences sociales, alliant des avancées et analyses dans des champs de recherche du langage. C'est une forme de lexicologie informatique qui étudie notamment le comportement humain et les tendances culturelles grâce à l'analyse quantitative de textes numérisés[1].
Comme c'est le cas pour la génomique – science visant à étudier le vivant en analysant les séquences génétiques – la culturomique se base sur l'analyse de mégadonnées ou de séquences d'information sur un langage, afin d'en tirer des méta-informations. Cela étant, la culturomique n’a rien à voir avec la génomique si ce n’est l'analyse d’une séquence de signes que sont les nucléotides – en génomique – et les mots (ou phrases/expressions) – en culturomique. En somme: au lieu d'étudier un texte en particulier, la culturomique se propose de passer par la méta-analyse de textes d'un corpus, voire de l'ensemble des textes de l'humanité[2].
Le terme culturomique (« culturomics », en anglais) est un néologisme américain formé des mots culture et omique.
Malgré son apparente « universalité » artistique, le terme culturomique s'applique quasi-exclusivement aux écrits, à la littérature et aux pratiques linguistiques.
La discipline est récente dans l'histoire des Sciences sociales et l'on peut identifier la genèse de cette technique d'analyse au croisement entre linguistique, sciences de l'informatique et histoire[3]. Elle apparaît ainsi dans certaines sources francophones sous le nom de « culturmétrique ».
Le terme est utilisé pour la première fois en 2010 dans un article du journal Science intitulé: « Quantitative Analysis of Culture Using Millions of Digitized Books », coécrit par les chercheurs de Harvard Jean-Baptiste Michel et Erez Lieberman Aiden[4].
Dans un article publié en 2012[5], Alexander M. Petersen et ses coauteurs ont constaté un « changement spectaculaire dans le taux de natalité et de mortalité des mots » : les « décès » ont augmenté et les « naissances » ont ralenti. Ils identifient ainsi un « point de bascule » universel dans le cycle de vie de nouveaux mots : ils entrent dans le lexique à long terme ou tombent en désuétude environ 30 à 50 ans après leur introduction dans une langue[6].
Des approches culturomiques ont été adoptées dans l'analyse du contenu des journaux dans un certain nombre d'études réalisées par I. Flaounas et ses co-auteurs[7]. Ces études ont montré des tendances macroscopiques à travers différents organes de presse et pays. En 2012, une étude portant sur 2,5 millions d'articles suggère que les préjugés sexistes dans la couverture de l'actualité dépendent du sujet et de la lisibilité des articles de journaux.
Une autre étude menée par les mêmes chercheurs, portant sur 1,3 million d'articles provenant de 27 pays, a montré des schémas macroscopiques clairs dans le choix des sujets à couvrir[8]. Cette étude suggère que des pays font des choix similaires lorsqu'ils sont liés par des liens économiques, géographiques et culturels. (Les liens culturels ont été suggérés par la similitude des votes pour le concours de l'Eurovision.) Cette étude a été réalisée à grande échelle, en utilisant des techniques de traduction automatique, de catégorisation de texte et d'extraction d'informations.
En 2013, une étude s'intéresse au potentiel de détection de changement « d'humeur » ou de « mentalité » d'une population, via le réseau social en ligne Twitter (T. Lansdall-Welfare et al[9].). L'étude prend en compte 84 millions de tweets générés par plus de 9,8 millions d'utilisateurs au Royaume-Uni, sur une période de 31 mois, montrant comment le sentiment du public a changé avec l'annonce de réductions de dépenses et investissements publics.
Toujours en 2013, dans une étude réalisée par S. Sudhahar et al., l'analyse syntaxique automatique de corpus textuels a permis d'extraire des méta-informations concernant des sujets et leurs réseaux relationnels à une vaste échelle, transformant des données textuelles en données de réseau[10]. Ces réseaux, pouvant contenir des milliers de nœuds, sont ensuite analysés à l'aide d'outils issus de la théorie des réseaux afin d'identifier les acteurs clés, des communautés, et des propriétés générales telles que la robustesse ou la stabilité structurelle du réseau global, ou la « centralité » de certains nœuds (ou sujets).
Les chercheurs en culturomique exploitent usuellement des mégadonnées de bases de données internationales pour étudier les phénomènes culturels qui se reflètent par exemple dans le langage, l'usage des mots, la sémiotique et la sémiologie.
Les chercheurs Michel et Aiden participèrent à la création du projet Google Labs Google Ngram Viewer, qui utilise les n-grammes pour analyser la bibliothèque numérique de Google Books afin de déceler des modèles culturels dans l'utilisation des langues au fil du temps.
Étant donné que l'ensemble de données Google Ngram n'est pas un échantillon impartial[12] et qu'il ne comprend pas de métadonnées, il existe plusieurs pièges à éviter lorsqu'on l'utilise pour étudier l'usage d'une langue ou la popularité de termes[13]. La littérature médicale représente une part importante, mais changeante, du corpus, ce qui ne tient pas compte de la fréquence d'impression ou de lecture de la littérature.
Dans une étude intitulée Culturomics 2.0, Kalev H. Leetaru examine des archives d'actualités, y compris la presse écrite et les médias audiovisuels (transcriptions de programmes de télévision et de radio), à la recherche de mots qui donnent un ton ou une « humeur », ainsi que de données géographiques[14]. Ces recherches ont permis de prédire rétroactivement le printemps arabe de 2011 et d'estimer avec succès l'emplacement final d'Oussama Ben Laden, à 200 km près.
En 2014, Suchanek et al. suggèrent que la culturomique peut à présent croiser les bases de données médiatiques (presse écrite) et savantes[15] et ainsi ouvrir de nouveaux champs historiques et culturels de compréhension.
En 2015, la chercheuse Sanna Alas publie un article explicatif sur le potentiel analytique du programme Ngrams de Google[16].
Un partenariat entre la Bibliothèque nationale de France et Google a été signé au début des années 2010 pour accélérer la numérisation de centaines de milliers de livres[17].
Isaac Asimov imagina la psychohistoire dans les années 1940, discipline imaginaire qui étudie les mouvements sociaux historiques à l'aune de la psychologie de groupe[18]. Certaines études culturomiques mettent en avant ce lien entre psychologie de masse et reconstitutions historiques ou études prévisionnelles.
Cette technique d'analyse étant basée quasi-exclusivement sur des bases de données numériques (récentes et largement incomplètes), elle tend à exclure tout ce qui n'y est pas présent ou présenté expressément. Par exemple, des mots-clés ou des langues entières peuvent y être sous-représentés ou sur-représentés et ainsi fausser les conclusions d'une étude basée sur ces méta-données[19]. Ainsi, on peut avancer que ce champ de recherche doit être d'abord étudié lui-même et bien défini, avant d'être utilisé comme un outil impartial de recherche.
Des limitations sérieuses ont également été émises envers le programme Ngrams de Google[20].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.