Les données ouvertes[1],[2] (en anglais : open data) sont des données numériques dont l'accès et l'usage sont laissés libres aux usagers, qui peuvent être d'origine privée mais surtout publique, produites notamment par une collectivité ou un établissement public. Elles sont diffusées de manière structurée selon une méthode et une licence ouverte garantissant leur libre accès et leur réutilisation par tous, sans restriction technique, juridique ou financière.

Thumb
Autocollants utilisés par les militants des données ouvertes.

L'accès aux données[2] vise d'une part à permettre aux citoyens de mieux contrôler l'administration, d'autre part d'exploiter ces données, ce qui implique que ce droit d'accès s'accompagne d'un droit à la réutilisation des données[3].

Ces droits d'accès et de réutilisation s'inscrivent dans la pensée qui considère l'information publique comme un bien commun (tel que défini par Elinor Ostrom) dont la diffusion est d'intérêt public et général.

L'ouverture des données est ainsi à la fois une philosophie de l'accès à l'information, un mouvement de défense des libertés et une politique publique.

Certains pays ont été pionniers, dont les États-Unis, le Royaume-Uni, l'Australie et le Canada puis la France[4]. Le mouvement s'est étendu notamment sous l'impulsion d'ONG comme l'Open Knowledge Foundation (OKFN) et le Partenariat pour un gouvernement ouvert (PGO).

Définitions

Une donnée est ouverte si chacun peut librement y accéder, l'utiliser, la modifier et la rediffuser, quel que soit son but[5].

L'open data est aussi un mouvement composé d'acteurs militant pour l'ouverture des données. Il est aussi une politique publique consistant à ouvrir les données publiques de manière à favoriser l'innovation ouverte dans le secteur public, rendre des comptes aux citoyens et améliorer la transparence de l'action publique et enfin mettre à disposition du secteur privé des ressources permettant le développement de nouveaux services.

Histoire

XVIIIe siècle

L'article 15 de la Déclaration des Droits de l’Homme et du Citoyen de 1789 mentionne que la société a le droit de demander des comptes à tout agent public de son administration. Cet article constitue le fondement juridique du droit d'accès aux informations publiques[6],[7],[8].

XXe siècle

États-Unis

Le Freedom of Information Act, mis en œuvre dès 1967[9], crée un droit à l'information pour les citoyens[10]. Il a été amendé notamment en 2007 par la loi OPEN Government Act[11].

France

L'Open Data est dans le prolongement de la démarche engagée par la loi du 17 juillet 1978 relative à l'accès aux documents administratifs[3] même si celle-ci n'impose ni de publier des données numériques, ni de publier de manière proactive des informations. Elle reconnaît simplement le droit d'obtenir communication des documents détenus par une administration, quels que soient leur forme ou leur support.

XXIe siècle

Union européenne

Dans l'Union européenne, la directive 2003/98/CE Informations du secteur public » (PSI = Public Sector Information)) du Conseil de l'Union européenne du 17 novembre 2003 sur la réutilisation des données publiques[12] et la directive INSPIRE en 2008 encouragent l'open data.

La directive 2019/1024 « Directive données ouvertes » (Open Data Directive) de 2019 remplace celle de 2003[13].

États-Unis

Avec l'élection de Barack Obama, l'ouverture des données publiques devient un axe central du gouvernement américain avec [14] l'Open Government Initiative [15] qui mentionne les critères de publication de données ouvertes.

Dans son discours d'investiture, Barack Obama fait part de son intention de « créer un niveau d’ouverture du gouvernement sans précédent », dans le but de « renforcer la démocratie et promouvoir son efficacité et son effectivité au sein du gouvernement »[16].

En , le gouvernement américain lance le portail fédéral des données ouvertes data.gov. En décembre de la même année la directive du gouvernement ouvert[17] pose les trois piliers de la coopération entre l'État et les citoyens qui sont : la transparence du gouvernement, la participation et la collaboration. Vivek Kundra, premier responsable fédéral des systèmes d'informations (Chief Information Officer) dans l'administration Obama, observe que « la libération de ces données a donné naissance à une économie des applications […] on assiste à une explosion de ces communautés de développeurs ».

Royaume-Uni

Thumb
Lancement du portail data.gov.uk avec Nigel Shadbolt, Tim Berners Lee et Andrew Stott.
Thumb
Capture d'écran de data.gov.uk

Au Royaume-Uni, l'article publié par le The Guardian en 2006 « Rendez-nous les joyaux de la couronne »[18] appelle à une libéralisation des données publiques et fait office de « moment initiatique du mouvement open-data »[19].

Gordon Brown lance le portail open data Data.gov.uk en janvier 2010 sous l'impulsion de Tim Berners-Lee.

France

En France, certaines collectivités territoriales comme Rennes ou Paris ont engagé une démarche open data dès 2010. Au niveau national, le gouvernement a créé en février 2011 la mission Etalab, service du Premier ministre chargé de coordonner cette politique publique des données ouvertes[3], et lancé un portail spécifique, data.gouv.fr, en décembre de la même année[20],[21],[22].

Au sommet du G8 2013, les chefs d'État du G8 ont signé une « Charte du G8 pour l'ouverture des données publiques »[23],[24].

En France, la loi pour une République numérique d'octobre 2016, qui pose le principe d'ouverture par défaut des données publiques communicables et crée la notion de service public de la donnée[25], donne à l'open data un fondement législatif[3].

Ce sont les données ouvertes de Santé publique France sur la pandémie de Covid-19 qui ont permis à une communauté d'analystes de publier des graphes et cartes suivant la pandémie au niveau national, parmi eux Guillaume Rozier[26].

Données ouvertes par domaine

Finances publiques

L'ouverture des données des finances publiques a été au cœur du mouvement open data dès ses débuts. En 2007, au Royaume-Uni, Jonathan Gray a conçu le projet "Where does my money go", une visualisation de données des dépenses du gouvernement britannique qui permet au citoyen d'y accéder facilement[27].

Ouverture des données de la recherche

L'ouverture des données scientifiques et le libre accès sont deux sujets connexes mais distincts. Le libre accès concerne les publications scientifiques, souvent relues par des pairs. L'ouverture des données scientifiques peut concerner les données à la base de ces articles, ou toute base de données à caractère scientifique (par exemple des relevés météorologiques ou autres), afin de permettre la reproduction des expériences menées, afin de les affirmer ou de les infirmer[28].

Elles peuvent aussi être des données issues d'instituts de recherche scientifique publics (ou privés bénéficiant de financements publics, ou souhaitant volontairement ouvrir et partager leurs données), souvent parallèlement à une libre diffusion des résultats de recherches ; on parle alors dans ce contexte de « libre accès » ou « libre diffusion », dont la première définition a été donnée par la Déclaration internationale sur le libre accès de Budapest qui s'est tenue le , connue sous l'acronyme BOAI (de l'anglais Budapest Open Access Initiative)[29].

De là, de nombreuses autres initiatives ont vu le jour ailleurs dans le monde avec par exemple la Déclaration de Berlin de 2003 sur le libre accès à la connaissance en sciences et sciences humaines[30] ; suivi en mars 2005, depuis Southampton, d’une nouvelle Déclaration appelée Berlin III visant à renforcer les mesures adoptées dans le cadre de Berlin I.

Le projet pour le séquençage du génome humain a été permis par un Open data Consortium[31] créé sur proposition de Jim Kent (en) en 2003, dont les bénéficiaires seront, entre autres, les pays en voie de développement où les universités et centres de recherche n’ont pas toujours accès aux périodiques scientifiques.

Transport et mobilités

En 2010, l'Union Européenne lance le chantier législatif sur l'ouverture des données de transports à travers la directive Intelligent Transport Systems (ITS) et précise son application en 2017 avec le Règlement délégué (UE) 2017/1926[32].

En France, l’ouverture des données concernant les transports relève de plusieurs lois. D'abord, la Loi Macron de 2015 oblige les Autorités organisatrices de transports à fournir les données de transport régulier de voyageurs. Ensuite la Loi Lemaire de 2016, à travers l’obligation de l’ouverture des données d’intérêt général, comme celles produites dans le cadre des délégations de services publics (DSP)[33] , élargit le champ des données à ouvrir. Cela concerne en particulier les données de transports car la DSP est le mode de gestion le plus utilisé pour les transports urbains de voyageurs en France[34].

La Loi d'orientation des mobilités (LOM) de 2019 précise ces obligations d’ouverture de données et les élargit. Elle précise que c’est l’autorité organisatrice de la mobilité (AOM) qui est chargée de l’animation de la fourniture des données[35]. Le but de l’ouverture de ces données est de faciliter le développement des applications et services MaaS (Mobility as a service) qui regroupent en leur sein plusieurs solutions de déplacements[36].

Ces données sont à la fois les données statiques et dynamiques sur les déplacements et la circulation ainsi que les données historiques de circulation[35]. En effet la LOM explique, à travers l’Article L1115-1 du Code des Transports[37], que les données à ouvrir sont celles précisées en annexe du Règlement délégué (UE) 2017/1926[38] dont voici quelques exemples:

  • pour les données statiques: réseau cyclable, parc relais, arrêt (point d’échange), temps de correspondance, etc;
  • pour les données dynamiques: perturbation temporaire, disponibilité des vélos partagés, trajet en temps réel, etc.[38]

La LOM va plus loin que le règlement européen, qui n’oblige la publication que des données statiques[39], et étend l’ouverture des données aux données dynamiques, aux points de recharge de véhicules électriques ou hybrides et aux services de covoiturage qui doivent fournir un point d’accès à leur offre de service[40].

La gouvernance de l’ouverture des données est également précisée par la LOM. L’article L1115-2 mentionne que les AOM ou opérateurs de transport doivent veiller à la “fourniture des données mises aux normes et mises à jour par l'intermédiaire du point d'accès national (PAN)”[41]. En France, le point d’accès national est le site transport.data.gouv qui en avril 2021 moissonne 441 jeux de données[42].

La licence de publication n’est pas imposée par la LOM mais c’est le cadre de la Loi Lemaire de 2016 qui s'applique et permet d’ouvrir les données sous la licence Etalab ou sous la licence ODbL (Open Database Licence)[35].

Enfin concernant le format des données, le règlement européen impose des normes facilitant l’interopérabilité: choix de normes ou spécifications NeTEx ou TAP PSI et SIRI pour le temps réel[39]. Néanmoins, beaucoup de données publiées par les opérateurs privés et les autorités publiques sont au format GTFS. À terme, le PAN fournira un convertisseur de données GFTS au format NETEX pour permettre aux AOM de se conformer au règlement[43].

Administration locale (France)

La loi pour une République numérique de 2016 oblige toutes les collectivités territoriales de plus de 3500 habitants ou 50 agents à publier les données produites dans le cadre de leurs missions de service public. Cette obligation s’applique aussi aux administrations de l’État et aux organismes exerçant des missions de service public[44]. En 2022, selon Open Data France, 14% des 5 252 collectivités concernées par cette loi participaient à l'ouverture des données dans les territoires, représentant 54% de la population[45].

Écosystème

L'écosystème de l’open data comprend des acteurs de la société civile comme Open Data Institute ou l’Open Knowledge Foundation ou encore OpenStreetMap, des administrations publiques, des entreprises privées, des acteurs du monde de la recherche, des acteurs du monde du journalisme, des financeurs et des organisations internationales[46].

Critères d'évaluation du degré d'ouverture des données

Les dix critères d'une donnée ouverte

En 2010, la Sunlight Foundation établit une liste de dix critères [47] caractérisant une donnée ouverte. Pour qu'une donnée soit dite « ouverte », elle doit être :

  1. Complète
  2. Primaire
  3. Opportune
  4. Accessible
  5. Exploitable
  6. Non discriminatoire
  7. Non propriétaire
  8. Libre de droits
  9. Permanente
  10. Gratuite

Échelle de qualité des données ouvertes de Tim Berners-Lee

En 2010, Tim Berners-Lee a proposé une échelle de qualité des données ouvertes (de 1 à 5 étoiles[48]).

Données non filtrées (éventuellement dégradées) publiée sous licence ouverte, par exemple mises en ligne avec n'importe quel format[49]
★ ★(1) + données disponibles de manière structurée (ex : données tabulaires en CSV, XML, Excel, RDF)[50]
★ ★ ★(2) + données librement exploitables, dans des formats non-propriétaires (pas sous Excel notamment)[51]
★ ★ ★ ★(3) + données identifiées par des URL (avec date de mise à jour),afin que l'on puisse « pointer » un lien vers elles (et les retrouver éventuellement mises à jour)[52]
★ ★ ★ ★ ★(4) + données liées à d'autres données, pour les contextualiser et enrichir[53]

Cette échelle concerne les données numériques de base, mais ces critères peuvent être adaptés à des données agrégées ou des informations publiques plus complexes (photos, vidéo, rapports, études, etc. qui devront aussi être mis en ligne, idéalement avec une métadonnée de qualité et pouvant aussi intégrer de l'hypertexte dans le cas des rapports et études, voire de certaines vidéos)

L'objectif premier était de mettre en ligne des données produites par l'État ou d'autres sans attendre la mise en œuvre d'une communauté d’intérêts privées (Cf. le débat présenté plus bas sur le paradoxe de la poule ou de l’œuf) qui pouvait ralentir la mise à disposition des données sur le réseau, et donc indirectement freiner l’émergence de ruptures technologiques au sein du mouvement Web sémantique dont Tim Berners-Lee est l'un des promoteurs.

Impacts et bénéfices

Les données ouvertes apportent des bénéfices attendus tant par le milieu économique que par des citoyens militants. Ce domaine fait converger des intérêts qui semblent opposés de prime abord : « À partir de 2007, on assiste à une surprenante convergence entre les enjeux techniques et politiques. Les acteurs du monde économique et les militants de la transparence vont inscrire l’ouverture des données comme une des priorités des politiques numériques. Libérer les données serait susceptible de créer de la richesse tout en développant la transparence de l’État »[54]. Au bout du compte, ces bénéfices sont de natures diverses.

Pour la recherche

Dans plusieurs[55] domaines de la recherche, malgré des appels à de bonnes pratiques de transparence et partage des données[56], la donnée brute n'est pas communiquée par les auteurs, même aux relecteurs[57].

De nombreuses fraudes scientifiques dans la recherche n'ont pas pu être détectées précocement par les comités de relecture parce que les auteurs refusaient de partager leurs données (même avec leurs co-auteurs parfois)[58], notamment dans le domaine de la psychologie où 50 % des expérimentations présentent des résultats non reproductibles[59],[60], ce qui pose de graves problèmes de confiance dans les résultats[61] et a suscité une initiative baptisée Peer Reviewers’ Openness Initiative[62],[63], selon laquelle quand il n'y a pas de raisons éthiques pour ne pas le faire, la transparence et l'ouverture des données devraient être des valeurs fondamentales de la science, afin notamment de permettre le travail des relecteurs.

Divers moyens modernes de partage de la donnée scientifique existent[64] y compris en pré-publication, comme en post-publication[65]. Par ailleurs, les auteurs qui partagent leurs données voient leur chances d'être cités augmenter [66].

Publics et sociaux

En Grande-Bretagne, le croisement des données ouvertes a permis[Quand ?] une diminution de 30 % de la facture de consommation d'énergie dans les bâtiments publics en seulement deux mois[réf. à confirmer][67].

Économiques

Les données ouvertes permettent, dans l'idéal, une concurrence équitable entre toutes les entreprises. Cependant, des études sociologiques en Inde et au Canada ont mis en évidence que l'accès et l'utilisation des données ouvertes étaient conditionnés par des critères matériels (électricité, possession de matériel informatique) et sociaux (éducation)[68].

De plus, selon certaines études, la libération de ces données publiques diviserait par cinq le capital nécessaire pour exercer une activité professionnelle dans le secteur de la téléphonie mobile[69]. Le rapport MEPSIR datant de 2006, financé par la commission européenne, estime que le marché européen lié à la réutilisation des informations publiques représente 27 milliards d'euros.

Par ailleurs, l'impact économique direct et indirect a été évalué 140 milliards € par an pour l’Europe[70].

Politiques industrielles

À partir de 2016, plusieurs gouvernements ont mis en place des plans pour développer l'intelligence artificielle. Ces gouvernements ont souligné le rôle essentiel de l'ouverture des données pour le développement d'un secteur économique de l'intelligence artificielle[71].

Débats sur l'ouverture des données

Paradoxe de l'œuf et de la poule

Il existe des opinions divergentes sur la mise en œuvre des données ouvertes qui se résume au « Paradoxe de l'œuf et de la poule » :[réf. nécessaire]

  • Certains pensent que ce sont les données (« l'œuf ») qui permettront de voir naître une possible alchimie et ainsi créer de la richesse qui profitera à toute la société. Il faut donc commencer en priorité par mettre à disposition toutes les données qui existent déjà au sein des institutions publiques. De la poule ou de l'œuf, c'est l'œuf qui existe déjà… donc les données sont leurs priorités.
  • D'autres pensent qu'une communauté (« poule ») est indispensable pour transformer les données en Killer application ou en future start-up. C'est le cas par exemple de la FING (Fondation internet nouvelle génération) qui depuis 2000 a une approche principalement sociale[72] en recommandant depuis janvier 2011 aux collectivités de compléter la démarche par une «infrastructure sociale[72] »:(« modalités d’accompagnement de la réutilisation, les formes d’animation de la communauté des ré utilisateurs, la facilitation des modes de partage entre réutilisateurs »)[72].

Licences open data

L'ouverture des données impose d'apposer une licence fixant les conditions dans lesquelles ces données pourront être copiées, diffusées, réutilisées librement. Les contextes juridiques variant d'un pays à un autre, diverses licences sont aujourd'hui utilisées à travers le monde.

Licences de l'Open Knowledge Foundation

Open data commons est un projet lancé au Royaume-Uni en décembre 2007 par l’Open Knowledge Foundation. La première licence libre du projet a été élaborée en mars 2008 par Jordan Hatcher et Dr Charlotte Waelde.

Ces licences peuvent être appliquées aux bases de données et données qu'elles contiennent prises isolément. L’Open Knowledge Foundation a élaboré trois types de licences de données libres qui se fondent sur leur droit interne, lui-même basé sur le modèle anglo-saxon et qui diffère des droits romano-germaniques, c’est-à-dire civilistes, avec une protection plus reconnue et aboutie du droit moral. De là, l'application de certaines de ces licences aux œuvres de l'esprit n'est pas valable en France mais peut être envisagée pour la diffusion des données publiques dans la mesure où elles sont par définition, publiques.

Public Domain Dedication and License

La licence Public Domain and License (PDDL)[73] donne la possibilité d’utiliser, de copier, de modifier, de redistribuer une base de données sans aucune restriction. C’est une licence libre de tout droit, de type domaine public. Les données peuvent donc être exploitées de façon totalement libre et l’auteur abandonne son droit moral.

Open Database Commons

Cette licence[74] que l'on retrouve sous le sigle ODC-by autorise l’utilisation, la copie, la redistribution, la modification, la réalisation de travaux dérivés de la base de données, sous réserve d’indiquer le nom de l’auteur de la base de données originale. On retrouve ces principes dans la licence Creative Commons By.

Open Data Commons Open Database License

La licence ODbL[75] est fondée sur le droit d'auteur et le droit sui generis des bases de données. Elle donne la possibilité aux utilisateurs de copier, distribuer, utiliser, modifier et produire une œuvre dérivée à partir d’une base de données sous réserve de la redistribuer sous les mêmes conditions imposées par la licence originale. Elle implique aussi d’indiquer le nom de l’auteur de la base de données d’origine.

Licences de type Creative Commons

À l'exception de la licence CC-0 spécialement conçue à cette fin, les licences de la famille Creative Commons ne sont pas adaptées à un usage sur une base de données. Elles sont en effet uniquement centrées sur le droit d'auteur, et négligent le droit sui generis des bases de données : cela risque d'une part de les rendre inefficientes (le respect de leurs obligations n'étant plus lié à la cession de droit) et d'autre part de rendre incertains le statut des données diffusées sous ces licences (l'éventuel droit sui generis des bases de données n'étant pas partagé)[76].

Licences en France

En droit français, les données publiques sont considérées comme susceptibles de contenir des informations sensibles, soit, car elles permettent d'identifier une personne, soit car elles sont soumises au droit d'auteur, secret d'État ou pour des considérations de défense nationale. Dans ce contexte, les données ne peuvent pas être librement diffusées sans autorisation préalable ou doivent faire l'objet d'une anonymisation.

Une fois les droits de diffusion garantis, des licences vont s'appliquer. Différents organismes ont élaboré des licences libres applicables à tout type de contenu, public ou créations de l'esprit. Il s'agit de simples modèles de licence d'exploitation qui n'imposent pas de s'y conformer. Des contrats inédits peuvent être élaborés, à la condition de respecter le droit interne, tant au regard des dispositions des lois du 17 juillet 1978 ou encore du 6 janvier 1978 qu'au regard des règles d'ordre public applicables au contrat[77].

En France, jusqu'à cinq licences différentes de réutilisation ont été apposées sur les données ouvertes. En 2013, l'harmonisation des pratiques a conduit à l'usage de deux licences types utilisées dans des proportions équivalentes[78] : la Licence Ouverte et l'Open Database Licence.

Licence du ministère de la Justice français

Le ministère de la Justice a pris l'initiative de concevoir une licence adaptée aux données publiques, la Licence information publique librement réutilisable[79] communément appelée la LIP.

Elle donne la possibilité de réutiliser les données du Répertoire du ministère[80] gratuitement, même à des fins commerciales sous réserve de mentionner les sources, la date de mise à jour, de ne pas altérer les données et de ne pas en dénaturer le sens.

Il est également prévu que l'utilisateur ne puisse autoriser une nouvelle réutilisation sous une licence qu'à la condition d'avoir ajouté de la valeur à la donnée d'origine.

Thumb
Logo de la Licence Ouverte
Thumb
Un des logos du libre accès.

Licence Ouverte

Cette licence créée par ETALAB est destinée à être utilisée notamment sur data.gouv.fr.

Open Database License

La licence ODbL a été traduite en français par la ville de Paris afin de l'adapter à un usage national. Une variété de projets utilisent cette licence, depuis OpenStreetMap aux collectivités locales (Paris, Nantes, Toulouse…).

Classements internationaux

L'Open Knowledge Foundation publié le Global open data index[81].

La World Wide Web Foundation publie l'Open data barometer pour mesurer l'ouverture des données et leur impact par pays[82].

L'OCDE publie un classement intitulé Open Government Data sur l'ouverture des données publiques au sein de ses pays membres[83].

Journée internationale de l'open data

Chaque année, à la fin du mois de février ou au début du mois de mars, l'Open Knowledge Foundation organise l'Open data day (en)[84].

Depuis 2016, les universités des États-Unis puis du monde entier ont la possibilité de participer à la journée internationale des données de recherche ouvertes, intitulée la Love Data Week[85]. L’événement est piloté depuis 2021 par l’Inter-university Consortium for Political and Social Research (ICPSR)[86].

Conférences

  • International Open Data Conference

Notes et références

Voir aussi

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.