Internet Archive - Wikiwand

Pour les articles homonymes, voir IA et Archive.

Internet Archive (ou IA) est un organisme à but non lucratif consacré à l’archivage du Web qui agit aussi comme bibliothèque numérique. Ces archives électroniques sont constituées de clichés instantanés (des copies sont prises à différents moments) de pages web, de textes, de logiciels, de films, de livres et d’enregistrements audio.

Faits en bref Création, Fondateurs ...

Internet Archive

Serveurs du site miroir conservé à la Bibliotheca Alexandrina.

Création	1996
Fondateurs	The Board^[1]
Forme juridique	Organisme à but non lucratif
Slogan	Universal access to all knowledge (« accès universel à tous les savoirs »)
Siège social	300 Funston Avenue, Richmond District, San Francisco, Californie États-Unis
Coordonnées	37° 46′ 56″ N, 122° 28′ 18″ O
Direction	Julien Masanès
Président	Brewster Kahle (depuis 1996)^[2]^,^[3]
Activité	Archivage et préservation du Web
Produits	Cover Art Archive (d)
Partenaires	Digital Public Library of America^[4]
Effectif	122 (2021)^[5]
Site web	archive.org

Dépenses	25,8 M$ (décembre 2022)^[6]
Chiffre d'affaires	30,5 M$ (2022)^[6]^,^[7]
Bilan comptable	7,3 M$ (décembre 2022)^[6]^,^[7]
Résultat net	4,1 M$ (2021)^[5]
modifier - modifier le code - voir Wikidata

Fermer

Pour assurer la stabilité et la sécurité des données archivées, un site miroir fonctionnel est conservé à la Bibliotheca Alexandrina en Égypte^[8]. L’IA met gratuitement ses collections à la disposition des chercheurs, historiens et universitaires. Située dans le Richmond District, au sud du Presidio de San Francisco, elle est membre de l'American Library Association et est officiellement reconnue comme bibliothèque par l'État de Californie^[9].

Le robot d'indexation utilisé par IA est Heritrix, un logiciel libre. Le logiciel de numérisation de livres est également libre, il se nomme Scribe^[10].

Histoire

Résumé

Contexte

Internet Archive est fondée en 1996 par Brewster Kahle. En raison de leurs objectifs — la préservation de la connaissance humaine et l'accessibilité des collections à tous —, les fondateurs de IA comparent ce projet à celui plus ancien de la bibliothèque d'Alexandrie.

Une refonte du site est lancée en version bêta en novembre 2014, et l'ancienne mise en page est supprimée en mars 2016^[11]^,^[12].

En novembre 2016, Brewster Kahle annonce que l'Internet Archive construisait l'Internet Archive of Canada, une copie de l'Archive qui serait basée quelque part au Canada. L'annonce fait l'objet d'une large couverture en raison de l'implication que la décision de construire une archive de sauvegarde dans un pays étranger était due à la présidence à venir de Donald Trump^[13].

Depuis 2017, OCLC et l'Internet Archive ont collaboré pour rendre les notices des livres numérisés de l'Archive disponibles dans WorldCat^[14].

Depuis 2018, la résidence d'arts visuels de l'Internet Archive, organisée par Amir Saber Esfahani et Andrew McClintock, aide à connecter les artistes avec les plus de 48 pétaoctets^[15] de documents numérisés de l'Archive. Au cours de cette résidence d'un an, les artistes visuels créent un ensemble d'œuvres qui aboutissent à une exposition. L'objectif est de relier l'histoire numérique aux arts et de créer quelque chose que les générations futures pourront apprécier en ligne ou hors ligne^[16]. Parmi les précédents artistes en résidence, citons Taravat Talepasand, Whitney Lynn, et Jenny Odell^[17].

Cyberattaques

Au cours de la semaine du 27 mai 2024, l'Internet Archive subit une série d'attaques DDoS qui rendent ses services indisponibles par intermittence, parfois pendant plusieurs heures, sur une période de plusieurs jours^[18]^,^[19]^,^[20].

Le 9 octobre 2024, le service est de nouveau visé par une grande attaque DDoS rendant le site web indisponible^[21]. L'équipe de l'Internet Archive, dont l'archiviste Jason Scott, confirme l'attaque DDoS. Le groupe hacktiviste BlackMeta revendique les attaques^[22]. Une fenêtre contextuelle sur le site annonce une faille de sécurité « catastrophique »^[23]. Environ 31 millions de comptes d'utilisateurs auraient été touchés^[24]. L'attaquant vole les courriels des utilisateurs et leurs mots de passe cryptés en Bcrypt^[25]. Un jour plus tard, le 10 octobre, archive.org et openlibrary.org sont de nouveau victimes d'une attaque DDoS. Le 13, les e-mails sont redevenus disponibles^[Quoi ?], et le 14 octobre la Wayback Machine redevient disponible en lecture seule.

Services

Résumé

Contexte

Wayback Machine

La Wayback Machine (littéralement « la machine à revenir en arrière ») est la partie des clichés du Web développée par Internet Archive. La Wayback Machine est créée par Brewster Kahle afin de stocker et indexer tout ce qui se trouve sur le web^[26]. La Wayback Machine est mise à jour à partir du contenu d'Alexa. Ce service permet aux utilisateurs de voir les versions archivées de pages Web à travers le temps : c'est l'« index à trois dimensions ».

Les clichés pris via leur page Save sont disponibles instantanément^[27]. La fréquence des instantanés est variable, toutes les mises à jour de sites Web ne sont pas enregistrées, et des intervalles de plusieurs semaines peuvent être observés: cela est dû au fait que la plupart des captures sont faites quand les utilisateur du service demandent à en faire.

En 2006, la Wayback Machine contient près de deux pétaoctets de données. Le volume augmente à un rythme de 20 téraoctets par mois, soit une augmentation de deux tiers par rapport aux douze téraoctets par mois qui étaient le taux de croissance en 2003. Cette croissance est supérieure à la quantité de texte contenue dans les plus importantes bibliothèques du monde, notamment la bibliothèque du Congrès. En 2009, la Wayback Machine contient près de trois pétaoctets de données et son augmentation était de 100 téraoctets par mois^[28]. Les données sont archivées dans des systèmes fabriqués par Capricorne Technologies, des Petabox racks.

L'appellation « Wayback Machine » renvoie à des épisodes du The Rocky and Bullwinkle Show, où M. Peabody, un chien à l'air professoral et son assistant Sherman (un animal de compagnie humain), utilisent une machine à remonter le temps appelée « WABAC Machine » pour décrire des évènements historiques célèbres^[29].

En 2015, la Russie aurait par erreur bloqué l'intégralité du site Wayback Machine^[30].

Archive-It

Les utilisateurs désireux d'archiver en permanence et immédiatement leurs données peuvent utiliser, moyennant un abonnement, le service Archive-It de IA^[31]. Les données recueillies sont périodiquement indexées par la Wayback Machine. En décembre 2007, ce service avait créé plus de 230 millions d'URL pour 466 collections publiques, y compris des organismes gouvernementaux, des universités et des institutions culturelles.

Exemple d'organismes ou institutions participant à Archive-It :

Electronic Literature Organization (en) ;
les archives d'État de Caroline du Nord ;
le Texas State Library and Archives Commission (en) ;
l'université Stanford ;
la Bibliothèque nationale australienne ;
le Groupe de bibliothèques de recherche.

Collections

En plus des archives Web, les services d'Internet Archive conservent d'importantes collections de médias numériques qui sont soit du domaine public soit titulaires d'une licence permettant leur redistribution, comme les licences Creative Commons. Les médias sont organisés en collections par type (images animées, son, texte, etc.) et en sous-collections selon différents critères. Chaque collection principale comprend une sous-collection Community, où les apports du public en général peuvent être archivés.

Images vidéos

Mis à part les longs métrages, la collection vidéo de l'Internet Archive comprend des actualités, des classiques de la bande dessinée, de la propagande pro et antiguerre et des documents plus éphémères des Archives Prelinger comme des publicités^[32], des films éducatifs et industriels et des collections de films amateurs.

Sons

La collection audio regroupe de la musique, des livres audio, des émissions d'information, des spectacles radiophoniques anciens et une grande variété d'autres fichiers audio. La sous-collection Live Music Archive comprend 40 000 enregistrements de concerts d'artistes indépendants^[33], ainsi que des artistes plus établis et des ensembles musicaux avec des règles moins strictes sur l'enregistrement des concerts tels que le Grateful Dead.

Textes

Cette collection rassemble des textes du Projet Gutenberg, des textes de diverses bibliothèques à travers le monde ainsi qu'une collection de documents et de notes issues de ARPANET. Avec plus de 7 millions de livres, l'Internet Archive est la deuxième plus grosse bibliothèque numérique de livres en libre accès dans le monde après Google Books. Tous les documents numérisés et mis en ligne par les internautes ou les institutions sont océrisés et convertis en fichiers EPUB pour liseuses ou MOBI pour Kindle et jouissent d'un archivage pérenne sur de nombreux serveurs dans le monde (Californie, Égypte, Chine, Pays-Bas, etc.)^[34].

La Bibliothèque Sainte-Geneviève est la première bibliothèque française à participer au projet dès mars 2010^[35]. En France, l'École des Ponts ParisTech (depuis août 2012)^[36], l'Institut national de la recherche agronomique (depuis janvier 2015)^[37], Sciences Po Paris (depuis juin 2015)^[38], la Bibliothèque Interuniversitaire de Santé (depuis janvier 2018)^[39], la Bibliothèque universitaire des langues et civilisations (depuis septembre 2019)^[40], la Bibliothèque nationale de France (depuis février 2019)^[41], puis les Bibliothèques de l'École normale supérieure (depuis décembre 2020) y participent également^[42].

Images

L’Internet Archive comporte plusieurs collections d’images. Celles-ci sont remises à l’archive par des individus ou des groupes dans le but de leur conservation et de leur partage^[43].

Deux collections proviennent de collaborations entre l’Internet Archive et de musées américains. La première est celle du Metropolitan Museum of Art de New York. Ajoutée le 20 février 2014, cette collection comporte plus de 140 000 images^[44]. La seconde est celle du Cleveland Museum of Art, mise en ligne le 28 décembre 2018^[45]. Cette collection comporte 38 602 images. Dans les deux cas, ce sont des images d'œuvres d’art (sculptures, peintures, photographies, etc.) généralement mises en contexte avec une date, une origine et le nom de l’artiste s’il est connu. Ces collections ont été rendues disponibles dans un mouvement pour le libre accès.

Une collection d’images provient d’une collaboration de l’Internet Archive avec la Nasa. Cette collection est à la fois accessible sur le site web de l’Internet Archive et sur un site web connexe^[46]. Cette collection comporte 104 sous-collections, par exemple la Solar System Collection, la Human Space Flight Collection et la Chandra Space Telescope Collection. Il est pertinent de noter que parmi ces 208 378 documents, 188 766 sont des images alors que les autres sont des vidéos, des programmes, des fichiers audio, etc^[47].

Des collections de photos de Flickr Commons sont disponibles sur l’Internet Archive. Ceci est le produit d’une collaboration entre les deux organismes. Une autre collection notable liée au même collaborateur est l’« Occupy Wall Street Flickr Archive ». Celle-ci est née d’un projet ayant pour objectif de réunir, de classifier et de préserver les archives liées au mouvement titulaire^[48].

L’Internet Archive prend en charge une collection de cartes topographiques provenant du United States Geological Survey qui a été mise en place et partagée par le Libre Map Project (en)^[49].

Le Cover Art Archive est une collection de couvertures d’albums de musique provenant d’un projet collaboratif entre l’Internet Archive et l’organisme MusicBrainz^[50].

Logiciels

L’Internet Archive a une collection de plus d’un million de logiciels, l’objectif est de les préserver et de les rendre accessibles au grand public. Ces logiciels sont généralement considérés comme historiques ou vintage. Une partie de ceux-ci sont de domaine public et il est donc possible de les télécharger. D’autres sont accessibles à travers le navigateur web à l’aide d’un émulateur. Les émulateurs sont nécessaires surtout lorsque le support matériel d’origine du logiciel n’existe plus, cela permet de les faire fonctionner à travers une interface moderne. De nombreux logiciels rétro sont toutefois toujours sous copyright. Certains d’entre eux peuvent tout de même être sauvegardés par l’Internet Archive, en accord avec un rajustement à la loi du copyright qui a été effectuée en 2003^[51].

L’Internet Archive a plusieurs collections liées aux jeux vidéos. Ces collections sont importantes puisque la conservation des jeux vidéos est encore à ses balbutiements et représente un défi majeur. Une partie de ces difficultés est liée au copyright et à la disponibilité de jeux. En effet, les compagnies qui produisent les jeux vidéos ne sont pas tenues de les garder sur le marché. Ainsi, lorsque les plateformes de vente en ligne disparaissent, il est possible que tout moyen d’obtenir légalement certains jeux disparaisse au même moment^[52]. L’autre difficulté majeure est liée au côté matériel. Assurer la jouabilité peut s’avérer très difficile, par exemple pour des jeux dont les supports matériels (consoles, cabinets d’arcades) sont en disparition^[53]. Les collections de l’Internet Archive font office de préservation, mais aussi de moyen d’accès grâce à l’émulation. Deux de ces collections sont les collections phares de la section logiciel du site web. D’abord, l’Internet Arcade est la collection dédiée au jeu d’arcades. Elle contient un peu plus de 2500 jeux datant en général des années 1970 à 1990. Ensuite, la Console Living Room consacrée à des jeux provenant de consoles rétro, telles que l’Atari 2600 et la Sega Genesis^[54]. Une autre collection liée aux jeux vidéos est la collection des Classic PC Games qui réunit des jeux provenant des plateformes DOS et Windows^[55].

La collection TOSEC (The Old School Emulation Center) a comme objectif de réunir et préserver des logiciels et micrologiciels qui étaient consacrés à des consoles ainsi que des minis et micro-ordinateurs^[56].

La collection Shareware CD-ROMs sert à l’archivage du contenu de CD de partagiciels. La collection est principalement formée par lesdits partagiciels, mais aussi de vidéos et autres formes de documents trouvés sur les CD de partage lors de leur récupération.

L’Historical Software Collection est dédié au fait de réunir les logiciels sauvegardés par l’Internet Archive qui sont considérés comme ayant une importance historique significative^[57].

Bibliothèque libre

Internet Archive est membre de l'Open Content Alliance (en) et exploite l'Open Library, où plus de 200 000 livres numérisés appartenant au domaine public sont consultables en ligne et imprimables^[58]^,^[59]. Le système de numérisation de livres Scribe sert à cette fin^[60].

Lors de la pandémie de coronavirus, Internet Archive met à disposition des Américains des livres sous droits d'auteurs afin que ces derniers puissent étudier pendant le confinement^[61]. Plusieurs éditeurs ne sont pas d'accord et Internet Archive retire l'accès aux livres concernés le 16 juin 2020^[61]. Malgré tout, les éditeurs attaquent en justice le site et un procès est prévu pour 2021^[61].

Polémiques

Résumé

Contexte

Site de la scientologie

À la fin de l'année 2002, Internet Archive a effacé différents sites critiques à l'égard de la scientologie recensés par la Wayback Machine^[62]. Le message d'erreur indique que c'était à la suite d'une « demande formulée par le propriétaire du site »^[63]. Il a par la suite été précisé que les avocats de l'Église de scientologie avaient exigé le retrait, sans aucun motif juridique, et que les propriétaires de ces sites ne voulaient pas que leurs pages soient retirées^[64].

Archives internet comme preuve

Contentieux civil aux États-Unis

Telewizja Polska

En octobre 2004, dans une affaire appelée « Telewizja Polska SA vs Echostar Satellite », un juriste tente d'utiliser les archives de la Wayback Machine comme source d'éléments de preuves recevables, probablement pour la première fois.

Telewizja Polska est le fournisseur de TVP Polonia et de EchoStar exploitant le Dish Network. Avant le procès, EchoStar a indiqué qu'il avait l'intention d'utiliser des clichés provenant de la Wayback Machine comme preuve du contenu passé du site de Telewizja Polska. Telewizja Polska a déposé une requête in limine (en) pour supprimer les clichés justifiants de ouï-dire et des sources non authentifiés, mais le juge Arlander Keys a rejeté les affirmations de Telewizja Polska et a refusé d'exclure ces éléments de preuve lors du procès^[65]. Toutefois, au moment du procès, le juge de la cour du district, Ronald Guzman, en première instance, a annulé les conclusions du juge Keys, et a conclu que ni l'Internet Archive ni les pages sous-jacentes (c'est-à-dire le site de Telewizja Polska) n'étaient admissibles comme preuve. Le juge Guzman a estimé que l'impression d'une page internet n'était pas une preuve d'authentification de l'information^[66].

Healthcare Advocates, Inc.

En 2003, Healthcare Advocates, Inc. a été accusée dans un procès de violation de marque. La poursuite a tenté d'utiliser du matériel internet archivé accessible via Internet Archive. Après avoir perdu ce procès, la compagnie a tenté de poursuivre Internet Archive pour violation de la DMCA et le Computer Fraud and Abuse Act. Ils ont fait valoir que, puisqu'ils avaient installé un fichier robots.txt sur leur site Web, il aurait dû être évité par le robot d'IA^[67]. La première plainte a été déposée le 26 juin 2003, et ils ont ajouté le fichier robots.txt, le 8 juillet 2003, les pages devant être retirées rétroactivement. Le procès s'est réglé à l'amiable^[68].

Robots.txt est utilisé dans le cadre du protocole d'exclusion des robots (Robots Exclusion Standard), une norme d'application volontaire qu'IA applique et qui interdit aux robots d'indexer certaines pages marquées par le créateur comme hors limite. En conséquence, l'IA a supprimé un certain nombre de sites Web qui sont maintenant inaccessibles via la Wayback Machine. Ceci est parfois dû à un nouveau propriétaire qui plaçait un fichier robots.txt interdisant l'indexation du site. Les administrateurs disent travailler sur un système qui permettra l'accès aux archives précédentes tout en excluant les éléments créés après l'ajout du fichier.

En 2006, IA appliquait la règle du Robots.txt rétroactivement. Si un site bloque IA, à l'instar de Healthcare Advocates, toutes les pages précédemment archivées depuis ce domaine sont également supprimées. Dans les cas de sites bloqués, seul le fichier robots.txt est archivé. Cette pratique semble être préjudiciable aux chercheurs accédant à des informations disponibles dans le passé.

Toutefois, IA précise également que « parfois un propriétaire de site Web nous contacte directement et nous demande d'arrêter l'indexation ou l'archivage d'un site. Nous nous conformons à ces demandes. » Ils ont aussi expliqué qu'« Internet Archive n'est pas intéressé par la préservation ou l'offre d'accès à des sites Web ou d'autres documents Internet appartenant à des personnes qui ne voudraient pas que leur matériel soit archivé ».

Loi des brevets

L'Office des brevets aux États-Unis et, sous réserve que des exigences supplémentaires soient remplies (par exemple, fournir une déclaration officielle de l'archiviste), l'Office européen des brevets accepteront une datation d'Internet Archive comme preuve de la publication d'une page Web. Ces dates sont utilisées pour déterminer si une page Web est disponible avant par exemple la date de dépôt d'une demande de brevet.

Droit d'auteur

Grateful Dead

En novembre 2005, le téléchargement gratuit des concerts de Grateful Dead est supprimé du site. John Perry Barlow identifie Bob Weir, Mickey Hart et Bill Kreutzmann comme les instigateurs de ce changement^[69]. Le 30 novembre, un post sur le forum de Brewster Kahle a résumé ce qui semble être le compromis atteint entre les membres du groupe. Les concerts live peuvent être téléchargés ou écoutés, et les enregistrements seront disponibles pour écoute seulement. Les concerts ont, depuis, été ajoutés^[70].

Suzanne Shell

Le 12 décembre 2005, la militante Suzanne Shell (en) réclame la somme de 100 000 dollars pour l'archivage de son site « profane-justice.org » entre 1999 et 2004^[71]. Le 20 janvier 2006, Internet Archive dépose une action en jugement déclaratoire dans le district du nord de la Californie, demandant au tribunal de juger qu'IA ne violait pas les droits d'auteur de Shell.

Shell répond et dépose une autre plainte contre IA pour l'archivage de son site ; elle invoque la violation de ses conditions de service^[72]. Le 13 février 2007, un juge du district du Colorado rejète toutes les demandes, sauf celle de rupture de contrat^[73].

Le 25 avril 2007, IA et Shell annoncent conjointement le règlement de leur litige. IA a déclaré : « Internet Archive n'a aucun intérêt à insérer des informations dans la Wayback Machine de personnes qui ne veulent pas voir leurs contenus web archivés. Nous reconnaissons que M^me Shell possède un droit d'auteur valide et applicable dans son site et nous regrettons que l'inscription de son site dans la Wayback Machine ait abouti à ce contentieux. Nous sommes heureux d'avoir cette affaire derrière nous. » Shell a déclaré : « Je respecte l'objectif et la valeur historique d'Internet Archive. Je n'ai jamais eu l'intention d'interférer avec cet objectif ni de causer aucun dommage^[74]. »

Situation du droit d'auteur en Europe

En Europe, la Wayback Machine peut parfois enfreindre les lois sur le droit d'auteur. Seul le créateur peut décider de l'endroit où son contenu est publié ou reproduit, les pages devront être supprimées des archives sur demande du créateur^[75].

Procès contre quatre éditeurs

Article connexe : Hachette contre Internet Archive (en).

Pendant les interdictions de circuler, liées à la pandémie de Covid-19, les bibliothèques sont fermées. Internet Archive met en place une National Emergency Library (« Bibliothèque Nationale d'Urgence ») permettant un accès aux livres numérisés. Ce « prêt numérique contrôlé » provenant d'ouvrages numériques de bibliothèques partenaires, autorise l'emprunt d'un exemplaire à la fois par internaute, limite levée durant la période du Covid. Quatre éditeurs, Hachette, HarperCollins, Wiley et Penguin attaquent Internet Archive en justice aux États-Unis. Ils considèrent que cette mise à disposition des ouvrages est une violation des droits de copyright et contestent également que le fait de prêter une copie numérisée d'une œuvre, ce que fait l'Internet Archive, relève du fair use.

En mars 2023, la justice donne raison aux éditeurs. Internet Archive décide de faire appel de la décision^[76]. En attendant la suite de la procédure, quelque 500 000 références sont retirées de son catalogue, en même temps qu'il est fait appel aux témoignages des utilisateurs ^[77]. La décision de la cour d'appel, rendue le 4 septembre 2024, confirme la décision de première instance ^[78]. Un recours devant la cour suprême reste possible, même s'il a peu de chance d'aboutir en l'état du droit américain^[79].

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Internet Archive » (voir la liste des auteurs).

[1]
(en) « The Board », sur internetmemory.org.
[2]
« Public Access to Digital Materials », bibliothèque du Congrès (consulté le 10 juillet 2021) : « APPOINTMENTS ; Internet Archive 1996-present ; Director, Co-Founder »
[3]
« Declaration of Brewster Kahle in Support of Petition to Set Aside National Security Letter », Wired (consulté le 10 juillet 2021)
[4]
« https://dp.la/browse-by-partner » (consulté le 9 septembre 2023)
[5]
« https://projects.propublica.org/nonprofits/organizations/943242767/202233199349312193/full »
[6]
« https://projects.propublica.org/nonprofits/organizations/943242767 » (consulté le 19 octobre 2024)
[7]
Nonprofit Explorer (base de données en ligne), consulté le 1^er novembre 2024.
[8]
« International School of Information Science (ISIS) », sur www.bibalex.org (consulté le 22 octobre 2023)
[9]
« Internet Archive Forums: Internet Archive officially a library », sur archive.org (consulté le 22 octobre 2023)
[10]
(en) « Scribe Software », sur SourceForge, 8 mars 2013 (consulté le 22 octobre 2023)
[11]
(en-US) Alexis Rossi, « Redesigning Archive.org », sur Internet Archive Blogs, 5 novembre 2014 (consulté le 17 octobre 2021)
[12]
« Digital Library of Free Books, Movies, Music & Wayb… », sur Internet Archive, 25 mars 2016 (consulté le 17 octobre 2021)
[13]
(en) Ernesto, « Internet Archive Starts Seeding 1,398,875 Torrents », TorrentFreak, 7 août 2012
[14]
(en) Jim Michalko, « Syncing Catalogs with thousands of Libraries in 120 Countries through OCLC », sur blog.archive.org, Internet Archive, octobre 2017 (consulté le 18 juillet 2020).
[15]
« Used Paired Space », sur archive.org, 8 mars 2019 (consulté le 8 mars 2019).
[16]
(en-US) Melissa Locker, « The Internet Archive is helping these artists get inspired by digital history », sur Fast Company, 3 juillet 2018 (consulté le 29 décembre 2018).
[17]
« Jenny Odell – Neo-Surreal » [archive], sur The Photographers' Gallery, 30 mai 2018 (consulté le 27 septembre 2019).
[18]
(en) Kate Irwin, « Internet Archive Hit With DDoS Attacks », sur [PC Mag, 28 mai 2024 (consulté le 29 mai 2024).
[19]
(en-US) Guru Baran, « Internet Archive is Under DDoS Attack For Several Hours », sur Cyber Security News, 28 mai 2024 (consulté le 29 mai 2024)
[20]
(en-US) Mariella Moon, « The Internet Archive has been fending off DDoS attacks for days », sur Engadget, 29 mai 2024 (consulté le 29 mai 2024)
[21]
« Telex : Hack et DDoS contre Internet Archive, Meta AI étendu à 43 pays, Marriott paye 52 M$ après un vol de données », sur lemondeinformatique.fr (consulté le 10 octobre 2024).
[22]
(en) « Internet Archive hacked, data breach impacts 31 million users », sur BleepingComputer (consulté le 10 octobre 2024)
[23]
(en) Wes Davis, « The Internet Archive is under attack, with a popup claiming a 'catastrophic' breach », 10 octobre 2024 (consulté le 10 octobre 2024).
[24]
(en) « Hacker Defaces Internet Archive, Steals Data on 31 Million Users », sur PCMAG (consulté le 10 octobre 2024).
[25]
(en-GB) Kevin Poireault, « Internet Archive Breached, 31 Million Records Exposed », sur Infosecurity Magazine, 10 octobre 2024 (consulté le 10 octobre 2024)
[26]
Judy Tong, « Responsible Party - Brewster Kahle ; A Library Of the Web, On the Web », The New York Times, 8 septembre 2002
[27]
(en) Wayback Machine, « Backups for Google.com » , sur Wayback Machine (consulté le 27 juillet 2024).
[28]
(en) Lucas Mearian, « The Internet Archive's Wayback Machine gets a new data center » , sur ComputerWorld (consulté le 27 juillet 2024)
[29]
(en) Heather Green, « A Library as Big as the World », sur BusinessWeek, 28 février 2002.
[30]
« The Wayback Machine, victime de surblocage en Russie », ZDNet (consulté le 30 juin 2015).
[31]
(en) Stefanie Olsen, « Preserving the Web one group at a time », sur CNET, 1^er mai 2006.
[32]
« Les Archives Prelinger – réemploi, archive(s), préservation », sur Cinémadoc (consulté le 13 mars 2022)
[33]
(en) « Free Music : Download & Streaming : Live Music Archive : Internet Archive », sur archive.org (consulté le 13 mars 2022)
[34]
Mathieu Andro, Emmanuelle Asselin, Marc Maisonneuve (2012), Bibliothèques numériques : logiciels et plateformes, Paris, ADBS.
[35]
(en) « Internet Archive : Digital Library of Free & Borrowable Books, Movies, Music &… », sur Internet Archive (consulté le 12 octobre 2023).
[36]
(en) « Internet Archive : Digital Library of Free & Borrowable Books, Movies, Music &… », sur Internet Archive (consulté le 12 octobre 2023).
[37]
(en) « Internet Archive : Digital Library of Free & Borrowable Books, Movies, Music &… », sur Internet Archive (consulté le 12 octobre 2023).
[38]
(en) « Internet Archive : Digital Library of Free & Borrowable Books, Movies, Music &… », sur Internet Archive (consulté le 12 octobre 2023).
[39]
(en) « Internet Archive : Digital Library of Free & Borrowable Books, Movies, Music &… », sur Internet Archive (consulté le 12 octobre 2023).
[40]
(en) « Internet Archive : Digital Library of Free & Borrowable Books, Movies, Music &… », sur Internet Archive (consulté le 12 octobre 2023).
[41]
(en) « Gallica : Free Texts : Free Download, Borrow and Streaming : Internet Archive », sur archive.org (consulté le 21 mars 2022)
[42]
(en) « Internet Archive : Digital Library of Free & Borrowable Books, Movies, Music &… », sur Internet Archive (consulté le 12 octobre 2023).
[43]
« Internet Archive: Digital Library of Free & Borrowable Texts, Movies, Music & Wayback Machine », sur archive.org (consulté le 3 novembre 2024)
[44]
(en-US) in Art et Internet Archive, « The Metropolitan Museum of Art Makes 140,000+ Artistic Images from Its Collections Available on Archive.org | Open Culture » (consulté le 3 novembre 2024)
[45]
(en) Cleveland Museum of Art, « Paradigm Shift: Open Access at the Cleveland Museum of Art », sur CMA Thinker, 25 janvier 2019 (consulté le 3 novembre 2024)
[46]
(en-US) SpaceRef, « NASA and Internet Archive Launch Centralized Resource for Images », sur SpaceNews, 24 juillet 2008 (consulté le 3 novembre 2024)
[47]
« Internet Archive: Digital Library of Free & Borrowable Texts, Movies, Music & Wayback Machine », sur archive.org (consulté le 3 novembre 2024)
[48]
(en) John Erde, « Constructing archives of the Occupy movement », Archives and Records, vol. 35, n^o 2,‎ 3 juillet 2014, p. 77–92 (ISSN 2325-7962 et 2325-7989, DOI 10.1080/23257962.2014.943168, lire en ligne, consulté le 3 novembre 2024)
[49]
« Internet Archive: Digital Library of Free & Borrowable Texts, Movies, Music & Wayback Machine », sur archive.org (consulté le 3 novembre 2024)
[50]
« Internet Archive: Digital Library of Free & Borrowable Texts, Movies, Music & Wayback Machine », sur archive.org (consulté le 3 novembre 2024)
[51]
« U.S. Copyright Office - Statement of the Librarian of Congress Relating to Section 1201 Rulemaking », sur www.copyright.gov (consulté le 3 novembre 2024)
[52]
Zone Techno- ICI.Radio-Canada.ca, « Fermeture de boutiques virtuelles : quel avenir pour vos jeux vidéo dématérialisés? », sur Radio-Canada, 23 août 2024 (consulté le 3 novembre 2024)
[53]
« La mémoire des jeux vidéo », sur BnF - Site institutionnel (consulté le 3 novembre 2024)
[54]
« La préhistoire des jeux vidéo accessible en un clic », La Presse,‎ 27 décembre 2013 (lire en ligne, consulté le 3 novembre 2024)
[55]
« Internet Archive: Digital Library of Free & Borrowable Texts, Movies, Music & Wayback Machine », sur archive.org (consulté le 3 novembre 2024)
[56]
« Internet Archive: Digital Library of Free & Borrowable Texts, Movies, Music & Wayback Machine », sur archive.org (consulté le 3 novembre 2024)
[57]
« Internet Archive: Digital Library of Free & Borrowable Texts, Movies, Music & Wayback Machine », sur archive.org (consulté le 3 novembre 2024)
[58]
(en) Internet Archive Claims Progress Against Google Library Initiative - Antone Gonsalves, InformationWeek, 20 décembre 2006
[59]
(en) The Open Library Makes Its Online Debut - Chronicle of Higher Education, The Wired Campus, 9 juillet 2007
[60]
(en) Stefanie Olsen, An open-source rival to Google's book project - CNET, 26 octobre 2005
[61]
(en) Maria Bustillos, « Publishers Are Taking the Internet to Court », 10 septembre 2020.
[62]
(en) Net archive silences Scientology critic - Lisa M. Bowman, CNET, 24 septembre 2002
[63]
« Internet Archive Forums: exclusions from the Wayback Machine », sur archive.org (consulté le 22 octobre 2023)
[64]
(en) Ernest Miller, « Sherman, Set the Wayback Machine for Scientology », 24 septembre 2002 (version du 4 octobre 2002 sur Internet Archive)
[65]
(en) « Internet Archive's Web Page Snapshots Held Admissible as Evidence », sur cyberlaw.stanford.edu (consulté le 22 octobre 2023)
[66]
(en) Proving Web History: How to use the Internet Archive - Beryl A. Howell, Journal of Internet Law 3-9, février 2006 [PDF]
[67]
(en) Jessica Dye, Website Sued for Controversial Trip into Internet Past, EContent, 28 (11): 8-9, 2005
[68]
(en-US) Eric Bangeman, « Internet Archive settles suit over Wayback Machine », sur Ars Technica, 31 août 2006 (consulté le 22 octobre 2023)
[69]
(en) Wrath of Deadheads stalls a Web crackdown - Jeff Leeds et Jesse Fox Mayshark, International Herald Tribune, 1^er décembre 2005
[70]
« Internet Archive Forums: Good News and an Apology: GD on the Internet Archive », sur archive.org (consulté le 22 octobre 2023)
[71]
(en) Internet Archive v. Shell - Lewis T. Babcock, Civil Action No. 06cv01726LTBCBS, 13 février 2007 [PDF]
[72]
(en) Colorado Woman Sues To Hold Web Crawlers To Contracts - Thomas Claburn, InformationWeek, 16 mars 2007
[73]
« Internet Archive v. Suzanne Shell - Phillips Nizer LLP Internet Library of Law and Court Decisions », sur phillipsnizer.com via archive.wikiwix.com (consulté le 13 mars 2022)
[74]
(en) Internet Archive and Suzanne Shell Settle Lawsuit, 25 avril 2007
[75]
(de) Martin Bahr, « The Wayback Machine und Google Cache - eine Verletzung deutschen Urheberrechts? », Internet-Zeitschrift für Rechtsinformatik und Informationsrecht: JurPC, vol. WebDok 29/2002,‎ 14 janvier 2002 (DOI 10.7328/jurpcb/20021719, lire en ligne, consulté le 22 octobre 2023).
[76]
Martin Clavey, « Internet Archive perd son procès contre Hachette et compagnie », sur nextinpact.com, 28 mars 2023.
[77]
« Condamnée, Internet Archive retire 500 000 livres de sa bibliothèque », sur ActuaLitté.com (consulté le 27 juin 2024)
[78]
« Devant les juges, Internet Archive défend sa bibliothèque », sur ActuaLitté.com (consulté le 3 juillet 2024)
[79]
« La condamnation d'Internet Archive confirmée en appel », sur ActuaLitté.com (consulté le 6 septembre 2024)

Annexes

Sur les autres projets Wikimedia :

Internet Archive, sur Wikimedia Commons

Bibliographie

(en) S. Aya, W. Y. Arms, L. Walle, B. Kot, R. Mitchell, et P. Dmitriev, « A research library based on the historical collections of the Internet Archive », D-Lib magazine, 12(2), 4, 2006
(en) S. Hackett, B. Parmanto, et X. Zeng, « Accessibility of Internet websites through time », In ACM SIGACCESS Accessibility and Computing n^o 77-78, ACM, 2004, pp. 32-39
(en) E. Jaffe, E., et S. Kirkpatrick, « Architecture of the internet archive », In Proceedings of SYSTOR 2009: The Israeli Experimental Systems Conference, ACM, 2009, p. 11
(en) B. Kahle, The Internet Archive, 2012
(en) C. McKay, Ephemeral to enduring: the Internet Archive and its role in preserving digital media, Information Technology and Libraries, 23(1), 3, 2004
(en) T. Schwarz, M. Baker, S. Bassi, B. Baumgart, W. Flagg, C. van Ingen, ... et M. Shah, « Disk failure investigations at the internet archive », In Work-in-Progess session, NASA/IEEE Conference on Mass Storage Systems and Technologies (MSST2006), 2006

Liens externes

(en) Site officiel
(en) The Wayback Machine

Ressource relative à la recherche :
- Biodiversity Heritage Library
Ressource relative à la musique :
- MusicBrainz
Ressource relative aux beaux-arts :
- AGORHA
Notices d'autorité :
- VIAF
- ISNI
- BnF (données)
- IdRef
- LCCN
- GND
- Pologne
- Israël
- NUKAT
- Australie
- WorldCat

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Internet Archive

Serveurs du site miroir conservé à la Bibliotheca Alexandrina.

Création	1996
Fondateurs	The Board^[1]
Forme juridique	Organisme à but non lucratif
Slogan	Universal access to all knowledge (« accès universel à tous les savoirs »)
Siège social	300 Funston Avenue, Richmond District, San Francisco, Californie États-Unis
Coordonnées	37° 46′ 56″ N, 122° 28′ 18″ O
Direction	Julien Masanès
Président	Brewster Kahle (depuis 1996)^[2]^,^[3]
Activité	Archivage et préservation du Web
Produits	Cover Art Archive (d)
Partenaires	Digital Public Library of America^[4]
Effectif	122 (2021)^[5]
Site web	archive.org

Dépenses	25,8 M$ (décembre 2022)^[6]
Chiffre d'affaires	30,5 M$ (2022)^[6]^,^[7]
Bilan comptable	7,3 M$ (décembre 2022)^[6]^,^[7]
Résultat net	4,1 M$ (2021)^[5]
modifier - modifier le code - voir Wikidata

Internet Archive

Serveurs du site miroir conservé à la Bibliotheca Alexandrina.

Création

1996

Fondateurs

The Board^[1]

Forme juridique

Organisme à but non lucratif

Slogan

Universal access to all knowledge (« accès universel à tous les savoirs »)

Siège social

300 Funston Avenue, Richmond District, San Francisco, Californie
États-Unis

Coordonnées

37° 46′ 56″ N, 122° 28′ 18″ O

Direction

Julien Masanès

Président

Brewster Kahle (depuis 1996)^[2]^,^[3]

Activité

Archivage et préservation du Web

Produits

Cover Art Archive (d)

Partenaires

Digital Public Library of America^[4]

Effectif

122 (2021)^[5]

Site web

archive.org

Dépenses

25,8 M$ (décembre 2022)^[6]

Chiffre d'affaires

30,5 M$ (2022)^[6]^,^[7]

Bilan comptable

7,3 M$ (décembre 2022)^[6]^,^[7]

Résultat net

4,1 M$ (2021)^[5]

Histoire

Résumé

Contexte

Une refonte du site est lancée en version bêta en novembre 2014, et l'ancienne mise en page est supprimée en mars 2016^[11]^,^[12].

Depuis 2017, OCLC et l'Internet Archive ont collaboré pour rendre les notices des livres numérisés de l'Archive disponibles dans WorldCat^[14].

Cyberattaques

Services

Résumé

Contexte

Wayback Machine

En 2015, la Russie aurait par erreur bloqué l'intégralité du site Wayback Machine^[30].

Archive-It

Exemple d'organismes ou institutions participant à Archive-It :

Electronic Literature Organization (en) ;
les archives d'État de Caroline du Nord ;
le Texas State Library and Archives Commission (en) ;
l'université Stanford ;
la Bibliothèque nationale australienne ;
le Groupe de bibliothèques de recherche.

Collections

Images vidéos

Sons

Textes

Images

L’Internet Archive comporte plusieurs collections d’images. Celles-ci sont remises à l’archive par des individus ou des groupes dans le but de leur conservation et de leur partage^[43].

L’Internet Archive prend en charge une collection de cartes topographiques provenant du United States Geological Survey qui a été mise en place et partagée par le Libre Map Project (en)^[49].

Le Cover Art Archive est une collection de couvertures d’albums de musique provenant d’un projet collaboratif entre l’Internet Archive et l’organisme MusicBrainz^[50].

Logiciels

L’Historical Software Collection est dédié au fait de réunir les logiciels sauvegardés par l’Internet Archive qui sont considérés comme ayant une importance historique significative^[57].

Bibliothèque libre

Polémiques

Résumé

Contexte

Site de la scientologie

Archives internet comme preuve

Contentieux civil aux États-Unis

Telewizja Polska

Healthcare Advocates, Inc.

Loi des brevets

Droit d'auteur

Grateful Dead

Suzanne Shell

Situation du droit d'auteur en Europe

Procès contre quatre éditeurs

Article connexe : Hachette contre Internet Archive (en).

Annexes

Sur les autres projets Wikimedia :

Internet Archive, sur Wikimedia Commons

Bibliographie

(en) S. Aya, W. Y. Arms, L. Walle, B. Kot, R. Mitchell, et P. Dmitriev, « A research library based on the historical collections of the Internet Archive », D-Lib magazine, 12(2), 4, 2006
(en) S. Hackett, B. Parmanto, et X. Zeng, « Accessibility of Internet websites through time », In ACM SIGACCESS Accessibility and Computing n^o 77-78, ACM, 2004, pp. 32-39
(en) E. Jaffe, E., et S. Kirkpatrick, « Architecture of the internet archive », In Proceedings of SYSTOR 2009: The Israeli Experimental Systems Conference, ACM, 2009, p. 11
(en) B. Kahle, The Internet Archive, 2012
(en) C. McKay, Ephemeral to enduring: the Internet Archive and its role in preserving digital media, Information Technology and Libraries, 23(1), 3, 2004
(en) T. Schwarz, M. Baker, S. Bassi, B. Baumgart, W. Flagg, C. van Ingen, ... et M. Shah, « Disk failure investigations at the internet archive », In Work-in-Progess session, NASA/IEEE Conference on Mass Storage Systems and Technologies (MSST2006), 2006

Liens externes

(en) Site officiel
(en) The Wayback Machine

Ressource relative à la recherche :
- Biodiversity Heritage Library
Ressource relative à la musique :
- MusicBrainz
Ressource relative aux beaux-arts :
- AGORHA
Notices d'autorité :
- VIAF
- ISNI
- BnF (données)
- IdRef
- LCCN
- GND
- Pologne
- Israël
- NUKAT
- Australie
- WorldCat