Loading AI tools
manière de construire, stocker, présenter ou publier des données De Wikipédia, l'encyclopédie libre
Dans le contexte de l'accessibilité de l'Internet, du big data (mégadonnées) des données de la recherche et des sciences ouvertes et plus largement du partage et l'ouverture des données, la notion de FAIR data ou données FAIR recouvre les manières de construire, stocker, présenter ou publier des données de manière à permettre que les données soient « faciles à trouver, accessibles, interopérables et réutilisables »[1] (en anglais : findable, accessible, interoperable, reusable), d'où l'acronyme « FAIR ».
Le mot fair (« équitable », « juste ») fait aussi référence au fair use, commerce équitable (fair trade), fair play, etc., il évoque un comportement proactif et altruiste du producteur de données, qui cherche à les rendre plus facilement trouvables et utilisables par tous, tout en facilitant en aval le sourçage (éventuellement automatique) par l'utilisateur des données.
Ces principes voient leur origine en janvier 2014 dans des travaux collectifs autour de l'initiative Data FAIRport[2] en 2014[3], par un groupe de travail au sein de FORCE 11, une communauté internationale fondée en 2011 composée de chercheurs, d’éditeurs, de sociétés savantes, d’universités, de bibliothécaires, d’archivistes[4].
Ces travaux ont abouti, en 2016, à une publication considérée comme fondatrice des principes FAIR, dans la revue Nature[5],[6], par un groupe de chercheurs de différents laboratoires à travers le monde (dont Mark D. Wilkinson du Centro de Biotecnología y Genómica de Plantas à l'université polytechnique de Madrid[7]).
Depuis cette publication, différentes initiatives se mettent en place pour déployer ces principes, dont GO FAIR[8] ou en France[9], un projet de recherche ANR 2020-2022: FOOSIN[10].
Le FAIR data implique que les données publiées répondent aux principes détaillés ci-dessous [11].
Pour être FAIR selon les principes énoncés en 2016, les données doivent être faciles à trouver ou retrouver par tous, humains et machines[11]. Pour ce faire, les (méta)données doivent avoir un identificateur unique et pérenne[11]. Elles doivent être décrites avec des métadonnées riches (voir plus bas) incluant notamment et explicitement un identificateur des données qu'elles décrivent, unique et pérenne. Ces (méta)données doivent être enregistrées ou indexées dans un dispositif permettant de les rechercher[11].
En général, cette fonction s'effectue via les moteurs de recherche, ce qui implique des arborescences de classement et des mots-clés cohérents et une stratégie de préservation à long terme des données (archivage sécurisé, etc.).
Les données FAIR ne sont pas obligatoirement des données ouvertes. Elles doivent dans tous les cas être récupérables par leur identifiant en utilisant un protocole standard de communication (ouvert, libre, et d'usage universel)[11], et dans tous les cas les (méta)données sont disponibles à des conditions connues, grâce à des licences claires (Creative Commons par exemple), et bien visibles ; si un protocole de procédure d'authentification et d'autorisation est nécessaire (ex : identification précise de la personne qui consulte, passage par un comité d'attribution de droits de consultation) cette condition doit être également bien visible. Enfin, les métadonnées doivent rester accessibles, même si les données ne sont plus disponibles[11] ; Quand les données ne peuvent être ouvertes, ou ne sont ouvertes qu'à certaines entités, il est recommandé d'indiquer pourquoi et pour combien de temps, clairement et en séparant les raisons juridiques et contractuelles de toute restriction volontaire (ex : accord de consortium)[11]. Si des outils logiciels ou méthodes particulières sont nécessaires pour accéder aux données ou les exploiter, la documentation sur ces logiciels nécessaires ou la méthode devraient aussi être disponibles pour tous en utilisant un logiciel libre quand c'est possible. Le lieu de consultation des (méta)données doit aussi être clairement identifié et accessible[11]. Les dépôts certifiés de données qui soutiennent l'accès libre devraient tant que possible être préférés[11].
L'interopérabilité (à ne pas confondre avec une simple « compatibilité ») ; elle est sémantique et syntaxique, et elle implique l'utilisation des métadonnées contextuelles précises, et de contenu et de formats respectant les grands standards internationaux et utilisant un vocabulaire informatique respectant les principes FAIR[11] ;
La réutilisation (libre, conditionnelle ou payante) doit être facilité par l'utilisation de standards communs, grâce à des bases de données rassemblant des données claires, vérifiées et bien décrites, directement (ré)utilisables pour la recherche ou d'autres usages[11].
Les (méta)données doivent être richement décrites, par une pluralité d'attributs précis et pertinents, incluant des détails sur leur provenance[11]. Elles sont libérées avec une licence d'utilisation claire et accessible[11] (exemple : Creative Commons).
Les bailleurs de fonds publics de la recherche, certains éditeurs et un nombre croissant d'agences gouvernementales[Lesquelles ?] commencent à exiger la publication de données ouvertes ou plus facilement réutilisables, et des plans de gestion de données numériques à long terme. Les données FAIR sont aussi apparues comme l'un des moyens de mieux valoriser le big data.
Dans le monde depuis plusieurs années de grands organismes tels que la National Science Foundation des États-Unis, les Conseils de la recherche du Royaume-Uni (en), la Nederlandse Organisatie voor Wetenschappelijk Onderzoek aux Pays-Bas ou l'Agence nationale de la recherche (ANR) en France[12], exigent déjà des « plans de gestion des données » pour les recherches qu’ils financent et encouragent les données ouvertes.
En Europe, le programme européen Horizon 2020 intégrait un projet pilote Open Research Data (« données de recherche ouvertes ») puis dès son programme de travail 2017, il a élargi à tous les thèmes l'incitation au FAIR, avec un « accès libre par défaut » pour les données de recherche générées au moyen de subventions européennes. Il invite les chercheurs à s'appuyer sur des licences ouvertes et sur les principes et critères FAIR, en réponse notamment aux demandes de l'Organisation de coopération et de développement économiques (OCDE) et de la Commission européenne d'une large ouverture des données. Dans ce cadre, l'approche FAIR data a été notamment portée par « FORCE11 », une communauté d'académiques, bibliothécaires, archivistes, éditeurs et bailleurs de fonds de la Recherche.
Les data papers[Quoi ?] sont encouragés pour mieux disséminer et faire partager les résultats des projets financés dans le cadre européen, et pour favoriser l’innovation et la création de connaissances nouvelles.
En France, le statut des données pour la recherche a également récemment changé [13].
La loi « pour une République numérique »[14] précise que dès lors que les données, liées à une publication, ne sont pas protégées par un droit spécifique et qu'elles ont été rendues publiques par le chercheur, leur réutilisation est libre. « L'éditeur d'un écrit scientifique ne peut de ce fait pas limiter la réutilisation des données de la recherche rendues publiques dans le cadre de sa publication. La description, la publication et la réutilisation des données liées à une publication sont entrées dans la loi française, le bien-fondé de leur exposition dans des data papers s’en trouve renforcé »[15].
le Plan d’action de l'ANR (et son Appel à projets générique 2016) incitent les chercheurs à utiliser les grandes bases de données existantes et à publier leurs résultats en accès ouvert.
Pour le Pr Barend Mons (spécialiste néerlandais de la gestion et de l'interopérabilité des données), le FAIR data est notamment l'une des réponses à la croissance exponentielle des données (ex : doublement tous les six mois par exemple dans le domaine de la biologie)[16] et une nécessité pour l'exploration de données devenu nécessaire dans le cadre du big data.
Ces principes visent à faciliter et améliorer la réutilisation de données déjà publiées, issues de la science ou utiles à la Recherche notamment dans les domaines hautement complexes (ex : prévision météorologique, changement climatique, biologie computationelle, biodiversité et services écosystémiques, médecine, économie, etc.
Les quatre principes du FAIR concernent l'accessibilité et l'usage par et pour l'être humain, mais aussi l'usage direct des données brutes par les ordinateurs et les « agents de calcul », au service de la recherche, de la connaissance, de l'éducation, de la formation, de l'innovation et de plus en plus de formes d'intelligence artificielle (apprentissage automatique, etc.). En accédant plus facilement à des données bien décrites, les ordinateurs peuvent en effet mettre en relation d'énormes quantités de données et identifier des tendances, détecter des signaux faibles, considérablement accélérer certains processus d'innovation. Mais ils ont besoin que les données soient rangées dans des ensembles bien structurés et qu'elles soient décrites dans un langage non ambigu.
Ces quatre principes accélèrent et facilitent le travail collaboratif ; ils sont par exemple utilisés dans les plans de gestion des données qui prennent une importance croissante alors qu'apparaissent de nouveaux lieux de stockage mondial de grandes quantités de données avec par exemple Dataverse, FigShare [17], Dryad, Mendeley Data [18], Zenodo [19], DataHub [20], DANS [21], EUDat, etc. Dans des domaines plus spécialisés et anciens on peut citer dans le domaine des sciences de la vie et de la génétique : GenBank, Worldwide Protein Data Bank (wwPDB)[22] UniProt[23] ; ou pour le domaine des sciences et technologies spatiales : le Space Physics Data Facility de la Nasa (SPDF) [24] ou la base d'identifications astronomiques SIMBAD[25] ; ou encore pour les sciences humaines et sociales les services NAKALA de l'infrastructure Huma-Num[26].
Partant du principe que toutes les composantes du processus de recherche devraient être disponibles pour assurer la transparence, la reproductibilité, la vérifiabilité et une possible réutilisation, certains auteurs invitent à appliquer ces principes aux « données » au sens conventionnel du terme (données numériques et certains objets numériques tels qu’algorithmes ou modèles mathématiques et informatiques par exemple, gènes et codes génétiques dans les banques de données génétiques développées pour la recherche et les biotechnologies), mais aussi à tous les algorithmes utiles, et aux outils, méthodes et flux de travail qui ont conduit à pouvoir produire ces données.
Des enjeux éthiques et notamment bioéthiques sont associés à ces approches, ainsi que de sécurité informatique.
Un temps et des moyens significatifs et croissants devront être consacré à préparer les données et leur gestion future. Les gestionnaires de données doivent continuellement se former et s'adapter à la croissance du big data et aux nouveaux outils de gestion de données.
Des systèmes « automatiques » de création de métadonnées existent mais souvent ils ne déchargent pas le producteur de donnée de tout le travail. Par exemple les appareils photographiques numériques et caméras récentes, dotés d'un GPS (et d'un capteur de pression/profondeur pour la photographie subaquatique) produisent automatiquement une donnée enrichie sur le lieu, le moment et les conditions de la photo, sur le matériel utilisé, etc. mais c'est au photographe de prendre le temps et les moyens de légender correctement sa photo, et avec des données contextuelles et quelques mots-clés pertinents, et avec éventuellement une version en anglais et de l'hypertexte pour enrichir cette légende. Une licence peut éventuellement être associée en amont à chaque document[11].
Le producteur et le gestionnaire de données devraient le plus en amont possible préparer leur plan de gestion des données après avoir réfléchi aux buts de la collecte ou production de données (en lien avec les objectifs de leur projet) aux formats de données qui seront générés ou recueillis, en prévoyant les modes de réutilisation, la taille de la base de données, ses mises à jour, le public des futurs utilisateurs (publics, privés...)[11].
Les données peuvent être publiques ou privées, et plus ou moins « ouvertes ».
Au sens large il peut s'agir de données de bases ou d'images, de textes, de photos, films, sons, etc.
Wikipédia, Wikimedia Commons et Wikidata sont des exemples de mise en œuvre collaborative de ces principes, en amélioration continue.
Plusieurs publications scientifiques spécialisées sur le thème des données et de leur gestion sont apparues depuis les années 1970, mais pour la plupart après 2012[27],[28].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.