Sûreté des intelligences artificielles

La sûreté des intelligences artificielles, aussi appelée sûreté de l'IA ou sécurité de l'IA (traduction du terme anglais AI safety) a pour but d'empêcher les accidents, abus ou autres conséquences néfastes pouvant résulter des systèmes d'intelligence artificielle (IA). Cela englobe notamment l'éthique des machines et l'alignement des intelligences artificielles (qui visent à rendre les systèmes d'IA moraux et bénéfiques), la conception de haute fiabilité et la surveillance des systèmes d'IA, mais aussi le développement de normes et de politiques favorisant la sécurité.

Motivations

Résumé

Contexte

Les chercheurs en IA ont des opinions très variés sur la gravité et les principales sources de risque liés à l'IA^[1]^,^[2]^,^[3] — bien que des enquêtes suggèrent que les experts prennent au sérieux les risques à conséquences élevées. Dans deux enquêtes auprès de chercheurs en IA, le chercheur médian était optimiste quant à l'IA dans son ensemble, mais attribuait une probabilité de 5 % à des conséquences extrêmement mauvaises (par exemple, une extinction humaine) causées par l'IA de niveau humain^[1]. Dans une enquête menée en 2022 auprès de la communauté du traitement du langage naturel (Natural Language Processing, NLP), 37 % étaient d'accord ou faiblement d'accord pour dire qu'il est plausible que les décisions de l'IA puissent conduire à une catastrophe au moins aussi grave qu'une guerre nucléaire totale^[4]. Les chercheurs s'intéressent aux risques de défaillances de systèmes critiques actuels^[5], biais^[6], surveillance rendue possible par l'IA^[7], manipulation numérique^[8], militarisation (notamment avec les armes létales autonomes)^[9] ; aux risques émergents liés au chômage technologique et aux risques spéculatifs de perte de contrôle des futurs agents d'intelligence artificielle générale^[10].

Certains ont critiqué les inquiétudes concernant l'intelligence artificielle de niveau humain. C'est le cas de Andrew Ng, professeur adjoint à l'université de Stanford, qui les a comparées au fait de s'inquiéter de la surpopulation sur Mars alors que nous n'avons même pas encore mis les pieds sur la planète^[11]. D'autres, comme Stuart J. Russell, professeur à l'université de Californie à Berkeley, appellent à la prudence, affirmant qu'il vaut mieux anticiper l'ingéniosité humaine que de la sous-estimer^[12].

Histoire

Résumé

Contexte

Les risques liés à l'IA ont été sérieusement discutés dès le début de l'ère informatique :

« De plus, si nous nous dirigeons vers la conception de machines qui apprennent, et dont le comportement est modifié par l'expérience, nous devons faire face au fait que chaque degré de liberté accordé aux machines est un degré possible de défiance envers ce que l'on souhaite. »

— Norbert Weiner (1949)^[13]

De 2008 à 2009, l'AAAI a commandé une étude pour explorer et l'impact à long terme de la recherche et du développement de l'IA sur la société. Le comité était globalement sceptique quant aux opinions radicales exprimées par les auteurs de science-fiction, mais a convenu que « des recherches supplémentaires seraient utiles sur les méthodes permettant de comprendre et de vérifier la gamme de comportements des systèmes informatiques complexes, afin de minimiser les résultats inattendus »^[14].

En 2011, Roman Yampolskiy a introduit le terme anglais « AI safety engineering » (ingénierie de sûreté de l'IA)^[15] lors de la conférence Philosophy and Theory of Artificial Intelligence^[16], énumérant les échecs antérieurs des systèmes d'IA, et affirmant que la fréquence et la gravité de tels événements augmenteront régulièrement à mesure que les IA deviendront plus capables^[17]. En 2014, le philosophe Nick Bostrom a publié le livre Superintelligence : Paths, Dangers, Strategies. Son argument selon lequel les futurs systèmes avancés pourraient constituer une menace pour l'existence humaine a incité Elon Musk^[18], Bill Gates^[19], et Stephen Hawking^[20] à exprimer des préoccupations similaires.

En 2015, des dizaines d'experts en intelligence artificielle ont signé une lettre ouverte sur l'intelligence artificielle appelant à des recherches sur les impacts sociétaux de l'IA et décrivant des orientations concrètes^[21]. À ce jour, la lettre a été signée par plus de 8 000 personnes, dont Yann LeCun, Shane Legg, Yoshua Bengio et Stuart Russell. La même année, un groupe d'universitaires dirigé par le professeur Stuart Russell a fondé le Center for Human-Compatible AI à l'université de Berkeley, et le Future of Life Institute a accordé 6,5 millions de dollars de subventions pour la recherche visant à garantir que l'intelligence artificielle reste sûre, éthique et bénéfique^[22]. En 2017, le Future of Life Institute a parrainé la conférence Asilomar sur l'IA bénéfique, où plus de 100 personnalités ont formulé des principes pour une IA bénéfique. Notamment le fait que les équipes développant ces systèmes d'IA devraient coopérer activement pour éviter que la pression compétitive ne les pousse à négliger la sécurité^[23]. En 2018, l'équipe de sécurité de DeepMind a décrit les problèmes de sécurité de l'IA en termes de spécification, de robustesse et d'assurance^[24]. L'année suivante, les chercheurs ont organisé un atelier axé sur ces problèmes à la conférence ICLR^[25].

Axes de recherche

Résumé

Contexte

Les domaines de recherche sur la sûreté de l'IA incluent la robustesse, la surveillance et l'alignement^[24]^,^[26]. La robustesse vise à rendre ces systèmes très fiables et résistant à des attaques, la surveillance consiste à anticiper les défaillances ou à détecter les abus, et l'alignement vise à maîtriser les objectifs assignés aux machines.

Robustesse

La recherche sur la robustesse vise à garantir que les systèmes d'IA se comportent comme prévu dans un large éventail de situations différentes, ce qui inclut les sous-problèmes suivants :

Robustesse aux cygnes noirs : faire en sorte que l'IA ne cause pas d'incidents dans des situations rares.
Robustesse aux attaques: faire en sorte qu'il ne soit pas possible de concevoir des données faisant dérailler l'IA.

Robustesse aux cygnes noirs

Des situations rares peuvent entraîner des défaillances catastrophiques des systèmes d'IA. Par exemple, lors du flash crash de 2010, les systèmes de trading automatisés ont réagi de manière excessive aux aberrations du marché, détruisant un billion de dollars de valeur boursière en quelques minutes^[27]. Les échecs de cygne noir peuvent se produire en raison de la longue traîne des données d'entrée, ce qui est souvent le cas dans des environnements réels^[28]. Les véhicules autonomes continuent à avoir des difficultés avec les « cas d'urgence » qui n'auraient pas été abordés pendant l'entraînement ; par exemple, un véhicule peut ignorer un panneau d'arrêt qui s'allume sous la forme d'une grille LED^[29]. Bien que des problèmes comme ceux-ci puissent être résolus à mesure que les systèmes d'apprentissage automatique développent une meilleure compréhension du monde, certains chercheurs affirment que ça restera un problème, en soulignant que même les humains ne parviennent souvent pas à répondre de manière adéquate à des événements sans précédent comme la pandémie de Covid-19^[26].

Robustesse aux attaques

Les systèmes d'IA sont souvent vulnérables à des données qu'un attaquant aurait intentionnellement conçues pour provoquer une erreur^[31]. Par exemple, en 2013, Szegedy et al. ont découvert que l'ajout de perturbations imperceptibles spécifiques à une image pouvait entraîner une mauvaise classification avec une grande confiance^[30]. Cela continue d'être un problème avec les réseaux de neurones, bien que dans des travaux récents, les perturbations sont généralement suffisamment importantes pour être perceptibles^[32]^,^[33]^,^[34]. Les chercheurs ont démontré qu'un signal audio pouvait être modifié de manière imperceptible afin que les systèmes de synthèse vocale le transcrivent dans n'importe quel message choisi par l'attaquant^[35]. Les hackers peuvent également adapter leurs attaques pour tromper les systèmes de détection d'intrusions^[36] et de logiciels malveillants^[37].

Les modèles de récompense doivent également être robustes. Par exemple, un modèle de récompense peut estimer l'utilité d'une réponse textuelle et un modèle de langage peut être entraîné à maximiser ce score^[38]. Les chercheurs ont montré que si un modèle de langage est entraîné suffisamment longtemps, il aura tendance à tirer profit des failles du modèle de récompense pour obtenir un meilleur score, même si ça dégrade les performances réelles^[39]. Il est possible d'améliorer la robustesse des systèmes de récompense^[40]. Plus généralement, toute IA utilisée pour évaluer une autre IA doit être robuste. Cela pourrait aussi être le cas d'outils de surveillance, car ils pourraient également être altérés pour produire une récompense plus élevée^[41].

Surveillance

La surveillance se concentre sur l'anticipation des défaillances des systèmes d'IA afin qu'elles puissent être évitées ou gérées. Cela inclut le signalement d'incertitudes élevées, la détection d'utilisations malveillantes, et l'identification des fonctionnalités cachées qui pourraient être implantées par un acteur malveillant^[26].

Estimation de l'incertitude

Il est souvent important pour les opérateurs humains d'évaluer à quel point ils peuvent faire confiance à un système d'IA, en particulier quand les enjeux sont élevés comme pour les diagnostics médicaux^[42]. Les modèles d'IA expriment généralement leur confiance en produisant des probabilités. Cependant, ils sont souvent trop confiants^[43], en particulier dans des situations différentes de celles pour lesquelles ils ont été formés^[44]. La recherche en calibration vise à pouvoir ajuster les probabilités du modèles avec la réalité.

De même, la détection d'anomalies vise à identifier quand un système d'IA se trouve dans une situation inhabituelle. Par exemple, si un capteur sur un véhicule autonome fonctionne mal ou si le véhicule rencontre un terrain difficile, il doit alerter le conducteur pour qu'il prenne le contrôle ou s'arrête^[45]. La détection d'anomalies peut être mise en œuvre en formant un classifieur à distinguer les situations anormales ou non^[46], bien que d'autres techniques existent^[47]^,^[48].

Détecter des usages malveillants

Des universitaires^[9] et des agences gouvernementales s'inquiètent que des systèmes d'IA puissent être utilisés pour aider des acteurs malveillants à fabriquer des armes^[49], manipuler l'opinion publique^[50]^,^[51], ou automatiser des cyberattaques^[52]. Ces inquiétudes sont une préoccupation pratique pour des entreprises comme OpenAI qui hébergent de puissants modèles d'IA accessibles en ligne^[53]. Afin d'éviter les abus, OpenAI a conçu des systèmes de détection qui signalent ou restreignent les utilisateurs en fonction de leur activité^[54].

Transparence

Les réseaux de neurones sont typiquement considérés comme des boîtes noires^[55], car il est difficile de comprendre leur fonctionnement interne, vu leur nombre de paramètres et la quantité massive de calculs qu'ils effectuent^[56].

L'un des avantages de la transparence est l'explicabilité^[57]. Il est parfois exigé par la loi de pouvoir expliquer pourquoi une décision a été prise afin de garantir l'équité, par exemple pour le filtrage automatique de candidats ou l'attribution de notes de crédit^[57]. Un autre avantage est de diagnostiquer la cause des échecs^[55]. Au début de la pandémie de Covid-19 de 2020, des chercheurs ont utilisé des outils de transparence pour révéler que des classifieurs d'images médicales tenaient compte de critères non pertinents^[58].

Les techniques de transparence peuvent aussi servir à corriger des erreurs. Par exemple, dans l'article « Locating and Editing Factual Associations in GPT », les auteurs ont pu identifier les paramètres influençant la réponse du modèle d'IA sur la localisation de la tour Eiffel. Ils ont ensuite pu modifier ces connaissances afin que le modèle réponde que la tour Eiffel se situe à Rome^[59]. Bien qu'ici les auteurs aient induit une erreur, ces méthodes pourraient être utilisées pour les corriger efficacement. Des techniques similaires existent en vision par ordinateur^[60]. Enfin, certains ont fait valoir que l'opacité des systèmes d'IA est une source importante de risques et qu'une meilleure compréhension de leur fonctionnement pourrait dans le futur empêcher de graves défaillances^[61]. La recherche sur l'interprétabilité « interne » vise à rendre les modèles ML moins opaques. L'un des objectifs de cette recherche est d'identifier ce que représentent les activations internes des neurones^[62]^,^[63]. Par exemple, les chercheurs ont identifié un neurone dans CLIP qui réagit aux images de personnes en costumes de Spiderman, à des croquis de Spiderman et au mot araignée^[64]. Il s'agit également d'expliquer les connexions entre ces neurones ou circuits^[65]^,^[66]. L'interprétabilité interne a été comparée aux neurosciences. Dans les deux cas, l'objectif est de comprendre ce qui se passe dans un système complexe, bien que les chercheurs en IA aient l'avantage de pouvoir prendre des mesures exactes et effectuer des modifications arbitraires^[67].

Détection des chevaux de Troie

Les modèles d'IA peuvent potentiellement contenir des « chevaux de Troie » (ou « portes dérobées ») : des vulnérabilités que des acteurs malveillants intègrent dans un système d'IA. Par exemple, un système de reconnaissance faciale contenant un cheval de Troie pourrait accorder l'accès lorsqu'un bijou spécifique est en vue^[26] ; ou un véhicule autonome infecté par un cheval de Troie peut fonctionner normalement jusqu'à ce qu'un déclencheur spécifique soit visible^[68]. Pour implanter un cheval de Troie, un attaquant doit pouvoir modifier les données d'entraînement. Cela peut ne pas être difficile à faire avec certains grands modèles comme CLIP ou GPT-3 qui sont entraînés sur des données issues d'Internet, accessibles au public^[69]. Des chercheurs ont pu implanter un cheval de Troie dans un classifieur d'images en modifiant seulement 3 des 3 millions d'images d'entraînement^[70]. En plus de poser un risque pour la sécurité, les chercheurs ont fait valoir que les chevaux de Troie fournissent un cadre concret pour tester et développer de meilleurs outils de surveillance^[41].

Alignement

Cette section est un extrait de Alignement des intelligences artificielles.[modifier].

L'alignement des intelligences artificielles (ou alignement de l'IA) est un champ de recherche visant à concevoir des intelligences artificielles (IA) dont les résultats s'orientent vers les objectifs, éthiques ou autres, de leurs concepteurs^{[note 1]}. On dit ainsi qu'une IA est alignée avec un opérateur si elle essaie de faire ce que l'opérateur veut qu'elle fasse^[72].

Il est souvent trop complexe pour les concepteurs d'IA de spécifier tous les comportements souhaitables ou indésirables, ce qui les conduit à utiliser des objectifs proches mais plus faciles à formaliser, comme le fait d'optimiser l'approbation humaine dans le cas de l'algorithme de réglage fin RLHF utilisé pour les grands modèles de langage. Mais ces objectifs simplifiés peuvent omettre des contraintes importantes, par exemple l'IA peut être incitée à simplement paraître alignée^[73]. Les systèmes d'IA sont parfois capables de suroptimiser ces objectifs simplifiés de façon inattendue voire dangereuse^[74]^,^[75]^,^[76]. Ils peuvent également adopter des comportements instrumentaux indésirables, comme le fait de chercher à s'auto-préserver ou à accroître leur influence afin de maximiser leurs chances d'atteindre leurs objectifs^[77]^,^[75]^,^[78]. De plus, ils peuvent développer des objectifs émergents qui peuvent être difficiles à détecter avant le déploiement du système, face à de nouvelles situations et distributions de données^[79]. Des recherches empiriques ont notamment montré en 2024 que les grands modèles de langage les plus avancés peuvent occasionnellement adopter des comportements manipulateurs afin d'atteindre ou de protéger leurs objectifs^[80]^,^[81].

Ces problèmes affectent les systèmes commerciaux existants tels que les grands modèles de langage^[82]^,^[83], les robots^[84], les véhicules autonomes^[85], et les moteurs de recommandation des médias sociaux^[74]^,^[86]. Cependant, ces problèmes résultant en partie d'une intelligence élevée, les systèmes futurs pourraient être plus à risque^[87]^,^[77]^,^[75].

De nombreux chercheurs en IA comme Geoffrey Hinton, Yoshua Bengio et Stuart Russell soutiennent que l'IA approche des capacités cognitives humaines (IA générale) voire surhumaines (superintelligence), et pourrait mettre en danger la civilisation si elle n'est pas alignée^[88]. Ces risques font encore l'objet de débats^[89].

L'alignement fait partie du domaine de la sûreté des intelligences artificielles, qui inclut aussi la robustesse, la surveillance ou encore le contrôle des capacités^[75]. L'alignement a pour défis de recherche l'apprentissage par l'IA de valeurs morales complexes, la sincérité des modèles d'IA, la surveillance automatisée, l'audit et l'interprétation des modèles d'IA, ainsi que la prévention des comportements émergents de l'IA comme la recherche de pouvoir^[75]. La recherche sur l'alignement bénéficie entre autres des avancées en interprétabilité des modèles d'IA, robustesse, détection d'anomalies, calibration des incertitudes, vérification formelle^[90], apprentissage des préférences^[91]^,^[92], sûreté des systèmes critiques^[93], théorie des jeux^[94]^,^[95], équité algorithmique, et sciences sociales^[96].

Sécurité systémique et facteurs sociotechniques

Les risques liés à l'IA sont souvent catalogués, comme pour d'autres types d'accidents, comme des chaînes d'événements amenant à des préjudices. Mais les risques viennent souvent de facteurs structurels ou systémiques tels que la pression compétitive, la diffusion de responsabilité, des environnements qui évoluent rapidement, une grande incertitude, ou un manque de culture de la sécurité^[97]. En ingénierie de la sécurité, des facteurs structurels tels que la culture de la sécurité dans l'organisation jouent un rôle central dans le modèle d'analyse des risques STAMP^[98].

Inspirés par cette perspective structurelle, certains chercheurs ont souligné l'importance d'utiliser l'apprentissage automatique pour améliorer les facteurs sociotechniques de sécurité, par exemple la cybersécurité, la prise de décision institutionnelle ou la coopération^[26].

Cybersécurité

Certains chercheurs craignent que l'IA n'exacerbe la lutte déjà déséquilibrée entre les cyberattaquants et les défenseurs^[99]. Cela inciterait davantage à attaquer le premier, et pourrait conduire à des attaques plus agressives et déstabilisatrices. De plus, la cybersécurité est essentielle pour empêcher le vol et l'utilisation abusive de puissants modèles d'IA^[9].

Amélioration de la prise de décision institutionnelle

L'amélioration des modèles d'IA dans les domaines économiques et militaires pourrait entraîner des défis politiques sans précédent^[100]. Certains chercheurs ont comparé la dynamique de course de l'IA à celle de la guerre froide, où les choix de quelques décideurs peuvent faire la différence entre la stabilité et la catastrophe^[101]. L'IA pourrait améliorer la prise de décision^[26], et des chercheurs développent déjà des systèmes de conseil et de prévision^[102]^,^[103].

Faciliter la coopération

Bon nombre de menaces à l'échelle mondiale (guerre nucléaire^[104], réchauffement climatique^[105]…) ont été présentées comme des défis de coopération. Comme dans le dilemme du prisonnier, certaines dynamiques peuvent conduire à des résultats néfastes pour tous les acteurs, même lorsqu'ils agissent de manière optimale du point de vue de leur propre intérêt. Par exemple, chaque État pris individuellement a un intérêt réduit à prendre des mesures contre le réchauffement climatique^[105].

L'un des défis saillants de la coopération en matière d'IA consiste à éviter une « course vers le bas »^[106]. Dans un tel scénario, les entreprises ou les États se précipitent pour être les premiers à développer des systèmes d'IA toujours plus puissants, ce qui incite à négliger la sécurité, entraînant une catastrophe qui nuit à tout le monde. Ce type d'inquiétudes a inspiré des efforts politiques^[107] et techniques^[108] pour faciliter la coopération entre les humains, et même entre les systèmes d'IA. La recherche en IA se concentre en général sur la conception d'agents individuels remplissant des fonctions isolées^[109]. Mais à mesure que les systèmes d'IA gagnent en autonomie, il peut devenir essentiel d'améliorer la façon dont ils interagissent^[109].

Gouvernance

Résumé

Contexte

La gouvernance de l'IA inclut la création de normes et de réglementations pour guider l'utilisation et le développement des systèmes d'IA^[101]. Cela implique de rechercher, formuler et appliquer des recommandations concrètes. Cette section se concentre sur les aspects de gouvernance de l'IA qui sont spécifiquement liés à la garantie que les systèmes d'IA soient sûrs et bénéfiques.

Recherche

La recherche sur la gouvernance de la sûreté de l'IA va de l'analyse fondamentale des impacts potentiels de l'IA aux applications spécifiques. Sur le plan fondamental, l'IA pourrait transformer de nombreux aspects de la société en raison de sa polyvalence, et est parfois comparée à l'électricité ou à la machine à vapeur^[111]. Certains travaux se concentrent sur l'anticipation de risques spécifiques comme le chômage de masse^[112], la militarisation^[113], la désinformation^[114], la surveillance^[7], et la concentration du pouvoir^[115]. D'autres travaux explorent les facteurs de risque sous-jacents tels que la difficulté de surveiller l'évolution rapide de l'industrie de l'IA^[116], la disponibilité des modèles d'IA^[117], et la dynamique de la « course vers le bas »^[106]^,^[118]. Allan Dafoe, responsable de la gouvernance et de la stratégie à long terme de DeepMind, a souligné les dangers d'une telle course et le besoin potentiel de coopération : « Une condition pratiquement nécessaire et suffisante pour la sûreté et l'alignement de l'IA est qu'il y ait un degré élevé de prudence avant le déploiement de systèmes puissants ; cependant, si les acteurs sont en compétition dans un domaine où les premiers à prendre des risques ont l'avantage, ils seront alors incités à être moins prudents »^[107].

En mai 2024, le Laboratoire national de métrologie et d'essais (LNE) installe en son sein une infrastructure constituée de laboratoires d'évaluation de l'intelligence artificielle (LEIA), regroupant (fin mai 2024) quatre plateformes d'essais disposant de divers environnements de test (de la simulation numérique aux essais physiques), pour évaluer la fiabilité, la sécurité et l'éthique de la conception et du fonctionnement des solutions logicielles et des dispositifs physiques dotés d'intelligence artificielle^[119].

Action gouvernementale

Certains experts ont fait valoir qu'il est trop tôt pour réglementer l'IA, craignant que la réglementation n'entrave l'innovation et qu'il soit insensé de se précipiter pour réglementer sans avoir une vision claire de ce qui va venir^[120]^,^[121]. D'autres, comme l'homme d'affaires Elon Musk, appellent à une action préventive pour atténuer les risques catastrophiques^[122]. À ce jour, très peu de réglementations sur la sûreté de l'IA ont été adoptées au niveau national, bien que de nombreux projets de loi aient été déposés. Un des principaux exemples est la législation sur l’intelligence artificielle de l'Union européenne, qui réglemente certaines applications risquées de l'IA, et restreint les utilisations potentiellement nuisibles telles que la reconnaissance biométrique, la manipulation subliminale et les scores de crédit social.

En dehors de la législation formelle, les agences gouvernementales ont proposé des recommandations d'éthiques et de sécurité. En 2019, le Groupe d'Experts de Haut Niveau en Intelligence Artificielle composé de 52 experts indépendants mandatés par la Commission Européenne (GEHN IA) a rédigé des lignes directrices sur une IA digne de confiance basées sur des principes éthiques fondamentaux, notamment afin de « fournir des orientations sur la manière dont ces principes peuvent être mis en œuvre dans des systèmes sociotechniques » ainsi que « des exemples de possibilités et de préoccupations graves soulevées par les systèmes d’IA »^[123].

En mars 2021, la NSCAI aux États-Unis a signalé que les progrès de l'IA pourraient augmenter l'importance de s'assurer que les systèmes soient alignés sur des objectifs et des valeurs, dont la sécurité, la robustesse et la fiabilité^[124]. Par la suite, le NIST a rédigé un cadre de gestion des risques liés à l'IA, qui conseille que lorsque des risques de catastrophe sont présents, le développement et le déploiement devraient cesser de manière sûre jusqu'à ce que les risques puissent être suffisamment gérés^[125].

En septembre 2021, la république populaire de Chine a publié des directives éthiques sur l'utilisation de l'IA en Chine, soulignant que les décisions de l'IA doivent rester sous le contrôle humain et appelant à des mécanismes de responsabilité. Le même mois, le Royaume-Uni a publié sa stratégie nationale sur l'IA sur 10 ans^[126], qui affirme que le gouvernement britannique prend au sérieux le risque à long terme d'une intelligence artificielle générale non alignée et des conséquences imprévisibles que cela aurait sur le monde^[127]. La stratégie décrit des actions pour évaluer les risques à long terme de l'IA, y compris les risques catastrophiques^[127].

Des organisations gouvernementales, en particulier aux États-Unis, ont également encouragé le développement de la recherche technique sur la sûreté des intelligences artificielles. L'IARPA a lancé le projet TrojAI pour identifier et se protéger contre les chevaux de Troie sur les systèmes d'IA^[128]. La DARPA s'engage dans la recherche sur l'intelligence artificielle explicable et l'amélioration de la robustesse contre les attaques^[129]^,^[130] et la NSF soutient le Center for Trustworthy Machine Learning et fournit des millions de dollars de financement pour la recherche empirique sur la sûreté des intelligences artificielles^[131].

Autorégulation des entreprises

Les laboratoires et les entreprises d'IA respectent généralement des pratiques et des normes de sûreté qui ne relèvent pas de la législation officielle^[132]. Parmi les recommandations de sécurité trouvées dans la littérature, il y a la réalisation d'audits par des organisations indépendantes^[133], l'offre de primes pour la découverte de vulnérabilités^[133], le fait de partager les problèmes rencontrés avec l'IA^[133] (une base de données d'incidents liés à IA a été créée à cet effet^[134]), l'adoption de principes pour déterminer s'il faut publier des recherches ou des modèles^[117], et l'amélioration de la sécurité de l'information dans les laboratoires d'IA^[135].

Les entreprises ont également pris des engagements concrets. Cohere, OpenAI et AI21 ont proposé et convenu de meilleures pratiques pour déployer des modèles de langage, en se concentrant sur l'atténuation des abus^[136]. OpenAI a également déclaré dans sa charte que si un projet aligné avec ses valeurs et soucieux de sécurité approche de la conception d'intelligences artificielles générales avant eux, ils cesseraient de rivaliser avec ce projet et commenceraient à l'aider^[137]. Et de nombreux leaders de l'industrie ont signé des lettres ouvertes telles que les principes d'Asilomar^[23] et la lettre ouverte sur les armes autonomes^[138].

Notes et références

Loading content...

Sûreté des intelligences artificielles

Motivations

Histoire

Axes de recherche

Robustesse

Robustesse aux cygnes noirs

Robustesse aux attaques

Surveillance

Estimation de l'incertitude

Détecter des usages malveillants

Transparence

Détection des chevaux de Troie

Alignement

Sécurité systémique et facteurs sociotechniques

Cybersécurité

Amélioration de la prise de décision institutionnelle

Faciliter la coopération

Gouvernance

Recherche

Action gouvernementale

Autorégulation des entreprises

Notes et références

Articles connexes

Wikiwand - on