Loading AI tools
technique de recherche dans un document électronique ou une base de données textuels De Wikipédia, l'encyclopédie libre
La recherche (en) plein texte (appelée aussi recherche en texte intégral[1] ou recherche de texte libre) est une technique de recherche dans un document électronique ou une base de données textuelles, qui consiste pour le moteur de recherche à examiner tous les mots de chaque document enregistré et à essayer de les faire correspondre à ceux fournis par l'utilisateur.
Les techniques de recherche sont devenues fréquentes dans les bases de données bibliographiques en ligne dans les années 1970. La plupart des sites Web et des programmes applicatifs (tels que les logiciels de traitement de texte) fournissent des fonctionnalités de recherche plein texte. Des moteurs de recherche dans le Web, comme AltaVista, emploient des techniques de recherche plein texte, alors que d'autres n'indexent qu'une partie des pages Web examinées par son système d'indexation[2].
L'approche la plus fréquente dans la recherche plein texte est de générer un index complet ou une concordance pour tous les documents pouvant être recherchés. Pour chaque mot (sauf les mots-outils qui sont trop fréquents pour être utiles) on crée une entrée qui liste la position exacte de chaque occurrence du mot dans la base de données de documents. Il est relativement simple de récupérer à l'aide d'une telle liste tous les documents qui correspondent à une requête, sans avoir à scanner chaque document. Bien que pour des corpus de très petits documents la recherche plein texte puisse être faite par parcours séquentiel, l'indexation est la méthode préférée pour presque toutes les recherches plein texte.
Comme quiconque a effectué une recherche plein texte le reconnaîtra, la recherche plein texte est susceptible de récupérer beaucoup de documents qui ne sont pas pertinents par rapport à la question posée. De tels documents sont appelés faux positifs. La récupération de documents non pertinents est souvent provoquée par l'ambiguïté inhérente au langage naturel ; par exemple, le mot avocat désigne aussi bien un fruit qu'une profession, et les documents traitant de l'un ne sont pas pertinents pour le chercheur qui s'intéresse à l'autre.
En raison des ambiguïtés du langage naturel, une recherche plein texte produit typiquement une liste de récupération qui a une faible précision : la plupart[réf. nécessaire] des éléments récupérés ne sont pas pertinents. La recherche avec un vocabulaire contrôlé cherche à résoudre ce problème en étiquetant les documents de telle manière que les ambiguïtés soient éliminées. Cependant, cette méthode peut laisser échapper des documents pertinents qu'une recherche plein texte aurait inclus.
Les insuffisances de la recherche plein texte ont été traitées de deux manières : en fournissant aux utilisateurs des outils qui leur permettent d'exprimer leurs requêtes plus précisément, et en développant de nouveaux algorithmes de recherche qui améliorent la précision des récupérations.
Les avancées technologiques ont beaucoup amélioré les performances de la recherche plein texte. Par exemple, l'algorithme PageRank de Google fournit plus d'importance aux documents qui sont pointés, au travers de liens hypertextes, par un grand nombre d'autres pages Web. Cet algorithme améliore considérablement la perception de la précision de recherche par les utilisateurs, ce qui explique sa popularité chez les utilisateurs d'Internet. Voir moteur de recherche pour davantage d'exemples.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.