Lien mort

Causes

Un lien peut rompre pour plusieurs raisons. L'explication la plus simple et la plus courante est que la page web n'existe plus, ce qui mène, la plupart du temps, à une erreur HTTP 404, qui indique que le serveur a bien répondu mais que la page précise est introuvable. D'autres codes de retour sont possibles aussi, la page peut avoir été déplacée ou renommée sur le serveur, ou le serveur lui-même avoir été déplacé ou renommé^[1].

Les autres raisons qui font qu'un lien est cassé incluent :

La restructuration d'un site internet qui entraîne un changement d'URL (par exemple domain.net/pine_tree peut devenir domain.net/tree/pine).
La relocalisation d'un contenu autrefois gratuit derrière un paywall.
Un changement dans l'architecture du serveur qui engendre un code tel que PHP ne fonctionne pas.
Le changement du design de contenus dynamiques d'une page, comme les résultats de recherche.
La présence dans le lien URL d'une information spécifique à un utilisateur (comme le nom de connexion).
Un blocage intentionnel via des filtres de contenus ou des pare-feux.
La suppression des gTLD (generic top-level domain, ou domaine générique de premier niveau en français)^[2].

Prévalence

Résumé

Contexte

Plusieurs études ont examiné la prévalence de liens rompus sur le Web, parmi la littérature académique et les bibliothèques numériques^[3]^,^[4]. En 2003, l'expérience faite par Fetterly et al.^[5] découvrit que chaque semaine environ un lien sur 200 cessait d'être valide. Nelson et Allen (2002)^[6] examinèrent le pourrissement des liens dans les bibliothèques numériques et trouvèrent que 3 % d'objets ne furent plus accessibles après une année.

En 2004, une autre étude a montré que les sous-ensembles de liens internet (qui cible des types de fichiers spécifiques ou qui sont hébergés par des institutions académiques) pourrait avoir des vies effectives radicalement différentes^[7]. Les URL de publications paraissent avoir une longévité plus longue sur Internet que les autres URL. Une étude de 2015 menée par Weblock a analysé plus de 180 000 liens de ressources dans le corpus de trois principaux éditeurs en libre accès, et a conclu a une durée de vie moyenne de 14 ans, confirmant une étude de 2005 qui concluait que la moitié des URL trouvées dans les articles du Magazine D-Lib étaient encore actives 10 ans après leur publication^[8]^,^[9]. D'autres études ont trouvé un taux de liens pourris plus élevé dans la littérature académique, mais montrent une espérance de vie d'au moins quatre ans^[10]^,^[11] Une étude de la BMC Bioinformatics a analysé près de 15 000 liens dans les résumés de citations indexées de Thomson Reuteur Web of Science, et a conclu que la durée de vie médiane d'une page internet était de 9,3 années, et que seulement 62% des pages étaient archivées^[12].

Une étude menée en 2016-2017 sur les liens Yahoo! Directory (l'annuaire de Yahoo! qui a arrêté d'être mis à jour en 2014, après 21 ans de développement), a conclu que la durée de vie effective des liens était de deux ans^[13].

Prévention et détection

Résumé

Contexte

Les stratégies pour prévenir des liens pourris peuvent se concentrer sur où situer le contenu afin que la probabilité qu'il y demeure est la plus élevée, ainsi qu'utiliser des liens d'autorité qui ont moins de probabilité d'être cassé, ou encore réparer les liens dont la cible a été supprimée ou relogée.

La création d'URLs qui ne changeront pas avec le temps est la méthode fondamentale afin de se prévenir de liens pourris. Tim Berners-Lee et d'autres pionniers d'Internet sont les champions de la planification préventive^[14].

Les stratégies relatives à l'autorité des liens incluent :

Faire des liens vers des sources primaires plutôt que secondaires, et prioriser les sites stables.
Eviter les liens qui pointent vers des ressources sur les pages personnelles des chercheurs^[9].
Utiliser des URL propres, sinon avoir recours à des URL normalisées ou des URL canoniques^[15].
Avoir recours à des liens permanents (permalink) et identificateurs persistants du type ARK, DOI, les références Handle System, et les PURL.
Eviter les liens vers les documents autres que des pages web^[15].
Eviter les liens profonds.
Faire des liens vers des sites Internet d'archives^[16] comme Internet Archives, WebCite, Archive.is, Perma.cc, ou Amber^[17]^,^[18]^,^[19]^,^[20]^,^[21].

Les stratégies relevant de la protection de liens existants incluent :

L'usage de mécanisme de liaison du type HTTP 301, pour renvoyer les navigateurs et les crawlers vers le contenu déplacé.
L'usage de systèmes de management de contenu qui peuvent automatiquement mettre à jour les liens lorsque le contenu du même site est déplacé, ou automatiquement remplacer les liens vers une URL canonique.
Intégrer des ressources de recherche dans les pages HTTP 404^[22].

La détection de liens cassés peut être faite manuellement ou automatiquement. Les méthodes automatiques incluent des plug-ins pour systèmes de management, ainsi que des vérificateurs autonomes de liens cassés, tel que Xenu's Link Sleuth. La vérification automatique peut ne pas détecter des liens qui renvoie vers du 404, ou des liens qui retourne une réponse 202 OK mais pointent vers du contenu qui a changé^[23].

Causes

Prévalence

Prévention et détection

Signaler et réparer un lien brisé

Références

Voir aussi

Wikiwand - on