Loading AI tools
aspect de l'histoire De Wikipédia, l'encyclopédie libre
L'histoire de l'intelligence artificielle (IA) débute dans l'Antiquité, avec des histoires, mythes et rumeurs d'êtres artificiels conçus par des maîtres artisans. Des philosophes et scientifiques tels que Leibniz ont plus tard tenté de formaliser le processus de la pensée humaine.
Mais c'est après la seconde guerre mondiale et l'invention des ordinateurs programmables que l'IA prend son essor. L'intelligence artificielle, nommée ainsi par John McCarthy, est établie en tant que discipline scientifique lors de la conférence de Dartmouth en 1956. L'IA a connu des périodes d'enthousiasme, notamment dans les années 1980 avec les systèmes experts, mais aussi deux périodes de désillusion et de gel des financements appelées « hivers de l'IA » (de 1974 à 1980, et de 1987 à 1993)[1].
À partir des années 2010, l'IA connaît des progrès spectaculaires avec l'avènement de l'apprentissage profond, avec l'augmentation des données disponibles, avec l'utilisation de processeurs graphiques qui décuplent les capacités de calcul[2], et avec l'introduction de l'architecture transformeur[3].
Les premiers jalons historiques de l'IA datent de la protohistoire, où mythes, légendes et rumeurs dotent des êtres artificiels, réalisés par des maîtres-artisans, d'une intelligence ou d'une conscience ; comme l'écrit Pamela McCorduck (en), l'intelligence artificielle commence avec « le vieux souhait de jouer à Dieu[4] ».
L'intelligence artificielle comme nous l'entendons aujourd'hui a été initiée par les philosophes classiques, dont Gottfried Wilhelm Leibniz avec son calculus ratiocinator, qui essaient de décrire le processus de la pensée humaine comme la manipulation mécanique de symboles, sans pour autant vouloir fabriquer des spécimens. Cette vision s'est concrétisée avec l'invention de l'ordinateur programmable dans les années 1940. Cet instrument et les idées qu'il sous-tend ont inspiré les scientifiques qui ont commencé à évoquer sérieusement la faisabilité d'un « cerveau électronique ».
La conférence de Dartmouth en 1956 a mis en avant terme « intelligence artificielle » (proposé par John McCarty), et a établi l'intelligence artificielle en tant que discipline de recherche à part entière[5]. À la suite de cette réunion, certains participants se sont investis dans une recherche sur l'intelligence artificielle. Certains utopistes ont pronostiqué qu'une machine aussi intelligente qu'un être humain existerait en moins d'une génération et des millions de dollars ont alors été investis pour réifier cette prédiction. Avec le temps, il est apparu que les difficultés inhérentes à cette annonce avaient été grossièrement sous-estimées. En 1973, en réponse aux critiques des scientifiques, notamment de James Lighthill et aux pressions continuelles des parlementaires, les gouvernements britannique et américain stoppent les subventions à la recherche en intelligence artificielle sans orientation. Sept ans plus tard, à la suite de l'initiative prophétique du Cabinet du Japon, les gouvernements et l'industrie réinvestissent dans l'intelligence artificielle, mais à la fin des années 1980 les décideurs désabusés retirent à nouveau leurs fonds. On peut donc dire que ce cycle en dents de scie, où alternent périodes de gel et de dégel, caractérise le soutien à l'intelligence artificielle. Mais il reste toujours des idéalistes pour faire des prédictions osées[6].
Malgré des hauts et des bas et en dépit de certaines réticences de décideurs et investisseurs, l'intelligence artificielle progresse. Les progrès de l'algorithmique ont permis de résoudre des problèmes que les heuristiques ne pouvaient traiter et jugés inaccessibles en 1970 ; et ces solutions sont commercialisées. Mais aucune machine dotée d'une intelligence artificielle forte n'a encore été construite, contrairement aux prévisions optimistes de la première génération de chercheurs. « Nous ne pouvons qu'entrevoir le court terme » a concédé Alan Turing, dans un article célèbre de 1950 préfigurant la recherche moderne sur les machines pensantes. « Mais, » ajoute-t-il, « nous ne pouvons pas envisager l'ampleur du travail qui reste à accomplir[7] ».
Au départ, deux approches se confrontent : d'une part l'approche logiciste ou symbolique, qui vise à recréer les « lois universelles » de la pensée et s'inspirent du concept de machine de Turing, et d'autre part l'approche neuronale, incarnée par Frank Rosenblatt, qui essaie d'imiter les processus biologiques cérébraux. Si l'approche logiciste, inspirée des travaux de Russell, Frege, du cercle de Vienne, de logique mathématique, etc., l'emporte à la DARPA, principal organisme finançant les recherches en intelligence artificielle, l'approche neuronale refait surface dans les années 1980, inspirant les travaux sur le connexionnisme.
L'intelligence artificielle ayant, à ses débuts, surtout émergé aux États-Unis, cet article se focalisera essentiellement sur ce pays[1].
McCorduck 2004 écrit en 2004 que « l'intelligence artificielle sous une forme ou une autre est une idée qui s'est répandue dans l'histoire de la pensée occidentale, un rêve au besoin pressant d'être réalisé, » que l'on retrouve dans les mythes, légendes, histoires, spéculations et automates anthropomorphes de l'humanité[8].
Les hommes mécaniques et les êtres artificiels sont présents dans la mythologie grecque, ainsi les robots dorés d'Héphaïstos, Pygmalion et Galatée[9].
Tandis qu'au Moyen Âge, circulent des rumeurs de secrets mystiques ou de techniques alchimiques pour imprégner des esprits, tels que le Takwin de Geber, les homoncules de Paracelse et le Golem de MaHaRaL[10].
Au XIXe siècle, l'idée d'hommes artificiels et de machines pensantes prend corps dans des œuvres de fiction, telles que Frankenstein de Mary Shelley ou encore R. U. R. (Rossum's Universal Robots) de Karel Čapek[11], et des essais de spéculation, comme Darwin among the Machines de Samuel Butler[12].
L'IA est un élément important de la science-fiction.
Des automates anthropomorphes réalistes ont été construits par des artisans de toutes les civilisations, dont Yan Shi qui travaillait pour Ji Man[13], Héron d'Alexandrie[14], Al-Djazari[15] et Wolfgang von Kempelen[16]. Les plus vieux automates sont les statues sacrées d'ancienne Égypte et de Grèce antique. Les croyants étaient persuadés que les artisans avaient imprégné ces statues avec des esprits réels, capables de sagesse et d'émotion — Hermès Trismégiste a écrit qu'« en découvrant la vraie nature des dieux, l'homme a été capable de le reproduire[17],[18] ». L'automate de Vaucanson du XVIIIe siècle qui représente un canard est une mise en œuvre saisissante d'un être artificiel réalisant certaines fonctions du vivant, tandis que le turc joueur d'échec de Johann Wolfgang von Kempelen est une supercherie.
L'intelligence artificielle se fonde sur l'hypothèse que le processus de pensée humaine peut être mécanisé. L'étude du raisonnement mécanique — ou « formel » — a un long historique. Les philosophes chinois, indiens et grecs ont tous développé des méthodes structurées de déduction formelle au cours du premier millénaire apr. J.-C. Leurs idées ont été développées à travers les siècles par des philosophes comme Aristote (qui a donné une analyse formelle du syllogisme), Euclide (dont les Éléments ont été un modèle de raisonnement formel), Al-Khawarizmi (auquel on doit l'algèbre et dont le nom a donné « algorithme ») et les philosophes scolastiques européens comme Guillaume d'Ockham et Duns Scot[19].
Une des premières tentatives de formalisation de la pensée connue est le zairja, mécanisme qu'utilisaient les astrologues arabe pour générer des idées supposées logiques, dont l'invention est attribuée à Abu al-Abbas as-Sabti au XIIe siècle. Raymond Lulle s'en est probablement inspiré pour mettre au point son Ars Magna[20]. Missionnaire, philosophe, et théologien espagnol du XIIIe siècle, il essaya lui aussi de générer des idées grâce à un système mécanique. Il combinait aléatoirement des concepts grâce à une sorte de règle à calcul, sur laquelle pivotaient des disques concentriques gravés de lettres et de symboles philosophiques. Il fondait sa méthode sur l’identification de concepts de base, puis leur combinaison mécanique soit entre eux, soit avec des idées connexes. Raymond Lulle l'appliqua à la métaphysique, puis à la morale, à la médecine et à l’astrologie. Le travail de Lulle a une grande influence sur Leibniz, qui a redéveloppé ses idées[21].
Au XVIIe siècle, Gottfried Wilhelm Leibniz, Thomas Hobbes et René Descartes ont exploré la possibilité que toute la pensée rationnelle puisse être aussi systématique que l'algèbre ou la géométrie[22]. Dans le Léviathan de Hobbes, on retrouve la célèbre phrase : « la raison [...] n'est rien d'autre que le fait de calculer[23] ». Leibniz imaginait un langage universel du raisonnement (sa characteristica universalis) qui assimilerait l'argumentation à un calcul, afin qu'« il n'y a[it] pas plus de besoin de se disputer entre deux philosophes qu'entre deux comptables. Car il leur suffirait de prendre leur crayon et leur ardoise en main, et de se dire l'un l'autre (avec un ami en témoin, au besoin) : Calculons ![24] ». Ces philosophes ont commencé à articuler les hypothèses d'un système de symboles physiques qui deviendra par la suite l'un des dogmes de la recherche en IA. Leibniz a toutefois mis en avant la difficulté liée à l’interconnexion des les concepts, qui ne permet pas d’isoler une idée de toutes les autres pour simplifier le raisonnement.
Au XXe siècle, l'étude de la logique mathématique a fourni l'essentiel des avancées qui ont rendu plausible l'intelligence artificielle. George Boole a inventé la formulation mathématique des processus fondamentaux du raisonnement, connue sous le nom d’algèbre de Boole. Il était conscient des liens de ses travaux avec les mécanismes de l’intelligence, comme le montre le titre de son principal ouvrage paru en 1854 : Les Lois de la pensée[25] (The laws of thought), sur l’algèbre booléenne. Gottlob Frege perfectionna le système de Boole en formalisant le concept de prédicat, qui est une entité logique soit vraie, soit fausse (toute maison a un propriétaire), mais contenant des variables non logiques, n’ayant en soi aucun degré de vérité (maison, propriétaire). Cette formalisation eut une grande importance puisqu'elle permit de démontrer des théorèmes généraux, simplement en appliquant des règles typographiques à des ensembles de symboles. La réflexion en langage courant ne portait plus que sur le choix des règles à appliquer. Par ailleurs, l’utilisateur joue un rôle important puisqu'il connaît le sens des symboles qu’il a inventés et ce sens[Note 1] n'est pas toujours formalisé, ce qui ramène au problème de la signification en intelligence artificielle, et de la subjectivité des utilisateurs.
S'appuyant sur le système de Frege, Russell et Whitehead présentent un traitement formel des fondements des mathématiques dans Principia Mathematica en 1913. Inspiré par le succès de Russell, David Hilbert défie les mathématiciens des années 1920-1930 de répondre à cette question fondamentale : « Le raisonnement mathématique peut-il être entièrement formalisé[19] ? » On répond à sa question par les théorèmes d'incomplétude de Gödel, la machine de Turing et le lambda-calcul de Church[19],[26]. Leur réponse est surprenante à plusieurs titres. Tout d'abord, ils prouvent qu'il y a, en fait, des limitations dans ce que la logique mathématique peut accomplir.
Dans l'article « Computing Machinery and Intelligence » en 1950, Alan Turing se demande si une machine peut « penser », et propose le « jeu de l'imitation » (maintenant appelé test de Turing), où une machine doit tenter par écrit de se faire passer pour un humain en répondant à des questions[27]. Il développe ensuite cette idée dans plusieurs forums et conférences[28],[29],[30].
Mais aussi (et plus important encore pour l'IA) leurs travaux ont suggéré que, sous ces conditions, toute forme de raisonnement mathématique pouvait être mécanisée. La thèse de Church impliquait qu'un appareil mécanique, manipulant des symboles aussi simples que des 0 et des 1, pouvait imiter tout processus concevable de déduction mathématique. Cette notion-clé se traduisit par la machine de Turing — une simple construction théorique qui capturait l'essence de la manipulation de symboles abstraits. Cette invention inspira une poignée de scientifiques qui commencèrent alors à discuter de la possibilité de machines pensantes[19],[31].
Les machines à calculer sont apparues dès l'Antiquité[Note 2] et ont été améliorées tout au long de l'histoire par de nombreux mathématiciens et ingénieurs, dont Leibniz. Au début du XIXe siècle, Charles Babbage conçoit la machine à calculer programmable (la Machine analytique), sans jamais la construire. À sa suite, Ada Lovelace spécule que la machine « peut composer des pièces de musique élaborées et scientifiques de toutes complexité et longueur[32],[Note 3] ».
Les premiers ordinateurs modernes sont les machines massives de cryptanalyse de la Seconde Guerre mondiale (telles que le Z3, l'ENIAC et le Colossus)[33], conçues, en ce qui concerne les deux dernières, à partir des fondements théoriques établis par Alan Turing et développés par John von Neumann[34].
Une note sur les sections de cet article[35].
Dans les années 1940 et 1950, une poignée de scientifiques d'une large gamme de domaines (mathématiques, psychologie, ingénierie, économie et science politique) ont commencé à discuter de la possibilité de créer un cerveau artificiel. Ce domaine de recherche de l'intelligence artificielle a été fondé en tant que discipline académique en 1956[36].
Les toutes premières recherches dans le domaine des machines pensantes ont été inspirées par une convergence d'idées qui se sont progressivement répandues de la fin des années 1930 au début des années 1950. De récentes recherches en neurologie ont montré que le cerveau était un réseau électrique de neurones qui envoyaient des impulsions de type tout-ou-rien. La cybernétique de Norbert Wiener a décrit les contrôles et la stabilité dans les réseaux électriques. La théorie de l'information de Claude Shannon détaille des signaux numériques (i.e., signaux tout-ou-rien). La théorie du calcul d'Alan Turing montre que toute forme de calcul peut être représentée numériquement. Les relations étroites entre ces idées suggèrent la possibilité de construire un cerveau artificiel[37].
On peut citer comme exemples de travaux de cette veine les robots tels que les Tortues de Bristol de William Grey Walter et la Bête de Johns Hopkins (en). Ces machines n'utilisent pas d'ordinateurs, d'électronique numérique ni de raisonnement symbolique ; elles étaient entièrement contrôlées par des circuits analogiques[38].
Walter Pitts et Warren McCulloch ont analysé des réseaux de neurones artificiels idéaux et ont montré comment ils pourraient effectuer de simples opérations logiques. Ils ont été les premiers à évoquer ce que des chercheurs plus tard appelleraient un réseau neuronal[39].
Un des étudiants inspirés par Pitts et McCulloch était Marvin Minsky, à l'époque jeune étudiant de 24 ans. En 1951 (avec Dean Edmonds), il construisit la première machine à réseau neuronal, le SNARC[40]. Minsky allait devenir l'un des plus importants leaders et innovateurs en IA des cinquante années suivantes.
En 1951, en utilisant la machine Ferranti Mark I de l'université de Manchester, Christopher Strachey a écrit un programme de jeu de dames et Dietrich Prinz un programme de jeu d'échecs[41]. Le jeu de dames d'Arthur Samuel, développé au milieu des années 1950 et au début des années 1960, a fini par acquérir un niveau suffisant pour défier un bon amateur[42]. De fait, l'intelligence artificielle dans les jeux sert d'étalon des avancées de l'intelligence artificielle.
En 1950, Alan Turing publie un article mémorable dans lequel il spécule sur la possibilité de créer des machines dotées d'une véritable intelligence[43]. Il remarque qu'il est difficile de définir l'« intelligence » et imagine son célèbre test de Turing. Si une machine peut mener une conversation (par téléscripteur interposé) qu'on ne puisse différencier d'une conversation avec un être humain, alors la machine pouvait être qualifiée d'« intelligente ». Cette version simplifiée du problème a permis à Turing d'argumenter de manière convaincante qu'une « machine pensante » était au-moins plausible, cet article répondant à toutes les objections classiques à cette proposition[44]. Le test de Turing a été la première hypothèse sérieuse dans le domaine de la philosophie de l'intelligence artificielle.
Quand l'accès aux ordinateurs est devenu possible au milieu des années 1950, des scientifiques, en petit nombre au début, ont compris qu'une machine qui pouvait manipuler des nombres pouvait aussi manipuler des symboles et que cette manipulation de symboles pouvait potentiellement être l'essence-même de la pensée humaine. Cela a conduit à l'élaboration des premières machines pensantes[45].
En 1955, Allen Newell et le futur prix Nobel d'économie, Herbert Simon, avec l'aide de Cliff Shaw, ont créé le « Théoricien logique ». Le programme finira par démontrer 38 des 52 premiers théorèmes des Principia Mathematica de Russell et Whitehead, et a même trouvé des démonstrations inédites et élégantes[46]. Simon raconte qu'ils ont « résolu le vénérable problème corps-esprit, expliquant comment un système composé de matière peut avoir des propriétés de l'esprit[47] ». C'est l'une des premières formulations d'un mouvement philosophique que John Searle appellera plus tard « intelligence artificielle forte » : comme les humains, les machines peuvent posséder un esprit[48].
En 1949, Warren Weaver publie un memorandum sur la traduction automatique des langues naturelles[49] qui est à la fois visionnaire et optimiste sur l'avenir de l'intelligence artificielle.
La conférence de Dartmouth de 1956[50] a été organisée par Marvin Minsky, John McCarthy et deux scientifiques seniors : Claude Shannon et Nathan Rochester (en) d'IBM. La thèse de la conférence incluait cette assertion : « chaque aspect de l'apprentissage ou toute autre caractéristique de l'intelligence peut être si précisément décrit qu'une machine peut être conçue pour le simuler[51] ». Parmi les participants on retrouve Ray Solomonoff, Oliver Selfridge, Trenchard More, Arthur Samuel, Allen Newell et Herbert Simon, qui vont chacun créer des programmes importants durant les premières décennies de la recherche en IA[52]. Newell et Simon y ont présenté le programme informatique Logic Theorist (« Théoricien logique »), parfois décrit comme le premier programme d'intelligence artificielle fonctionnant[53]. Pendant la conférence, McCarthy a convaincu l'auditoire d'accepter l'expression « Intelligence Artificielle » comme intitulé du domaine[54]. La conférence de Dartmouth de 1956 a été le moment-clé où l'intelligence artificielle a été appelée comme telle, a défini ses objectifs, a concrétisé ses premières réussites et a réuni ses acteurs importants. Cette conférence est souvent considérée comme le moment fondateur de l'intelligence artificielle en tant que discipline indépendante[5],[55].
Les années qui suivent la conférence de Dartmouth sont une ère de découverte, de conquêtes effrénées de nouvelles contrées du savoir. Les programmes développés à l'époque sont considérés par la plupart des gens comme simplement « extraordinaires[56] » : des ordinateurs résolvent des problèmes algébriques de mots, démontrent des théorèmes en géométrie et apprennent à parler anglais. À cette époque, peu croient que de tels comportements « intelligents » soient possibles pour des machines[57]. Les chercheurs font preuve alors d'un optimisme intense dans le privé comme dans leurs articles, ils prédisent qu'une machine complètement intelligente sera construite dans les 20 ans à venir[58]. Les agences gouvernementales comme la DARPA investissent massivement dans ce nouveau domaine[59].
Beaucoup de programmes sont couronnés de succès.
Ils sont nombreux parmi les premiers programmes d'intelligence artificielle à utiliser le même algorithme fondamental. Pour remplir certains objectifs (comme gagner un jeu ou démontrer un théorème), ils procèdent pas à pas vers la solution (en effectuant un mouvement ou une déduction à la fois) comme s'ils naviguent dans un labyrinthe, revenant en arrière dès qu'ils se heurtent à une impasse. Ce paradigme est appelé « raisonnement par tâtonnements[60] » ou retour sur trace.
La principale difficulté réside dans le fait que, pour beaucoup de problèmes, le nombre de chemins possibles vers la solution est astronomique, c'est la fameuse « explosion combinatoire ». Des chercheurs ont alors essayé de réduire l'espace de recherche à l'aide d'heuristiques ou de « règles empiriques » qui éliminent la plupart des chemins dont il est peu probable qu'ils mènent à une solution[61].
Newell et Simon essaient de capturer une version générale de cet algorithme dans un programme appelé le General Problem Solver[62] (« solutionneur de problème général »). Certains programmes de « recherche » sont capables d'accomplir des tâches jugées à l'époque impressionnantes comme la résolution de problèmes géométriques et algébriques, tels que le Geometry Theorem Prover d'Herbert Gelernter (1958) et le SAINT, écrit par James Slagle, un des étudiants de Minsky[63] (1961). D'autres programmes cherchent à travers des objectifs et sous-objectifs pour planifier des actions, comme le système STRIPS développé à Stanford pour contrôler le comportement de leur robot, Shakey[64].
Un but majeur de la recherche en IA est de permettre aux ordinateurs de communiquer en langage naturel comme l'anglais. Un des premiers succès était le programme STUDENT de Bobrow, qui pouvait résoudre des problèmes algébriques rédigés pour lycéens[65].
Un réseau sémantique représente des concepts (par ex. « maison », « porte ») à l'aide de nœuds et les relations entre les concepts (par ex. « possède un ») par des liaisons entre ces nœuds. Le premier programme d'IA à utiliser un réseau sémantique a été écrit par Ross Quillian[66] et la version la plus performante (et controversée) a été la Conceptual dependency theory de Roger Schank[67].
ELIZA de Joseph Weizenbaum pouvait mener des conversations si réalistes que certains utilisateurs se sont laissé abuser en croyant communiquer avec un être humain et non un programme. En réalité, ELIZA n'avait aucune idée de ce dont elle parlait. Elle donnait simplement une « réponse-bateau » ou reformulait en réponse grâce à quelques règles de grammaire. ELIZA était le premier agent conversationnel[68].
À la fin des années 1960, Marvin Minsky et Seymour Papert du Laboratoire d'IA du MIT ont proposé que la recherche d'IA se concentre sur des situations artificiellement simplifiées appelées aussi micro-mondes. Ils ont mentionné à juste titre que dans les sciences performantes comme la physique, les principes fondamentaux étaient souvent mieux compris en utilisant des modèles simplifiés tels que des avions sans friction, ou des corps parfaitement rigides. La majorité de la recherche s'est alors centrée sur un « monde-blocs », qui consistait en un ensemble de blocs colorés de formes et tailles variées disposés sur une surface plane[69].
Ce paradigme a permis des travaux innovants dans la vision industrielle de Gerald Sussman (qui dirigeait l'équipe), Adolfo Guzman, David Waltz (qui inventa la « propagation de contraintes »), et surtout Patrick Winston. Au même moment, Minsky et Papert construisait un bras robotique qui empilait des blocs, insufflant la vie dans ces monde-blocs. La plus grande réussite de ces programmes micro-mondes a été le SHRDLU de Terry Winograd. Ce dernier pouvait communiquer en anglais à l'aide de phrases ordinaires, planifier des opérations et les exécuter[70].
La première génération de chercheurs en IA fait les prévisions suivantes à propos de leur travail :
En , le MIT reçoit une subvention de 2,2 millions de dollars de la toute jeune ARPA (« Agence pour les projets de recherche avancée », qui deviendra plus tard la DARPA). L'argent est utilisé pour financer le Projet MAC (en) qui englobe le « Groupe IA » fondé par Minsky et McCarthy cinq ans plus tôt. L'ARPA continue à fournir trois millions de dollars par an jusqu'aux années 1970[75]. L'ARPA fait des subventions similaires au programme de Newell et Simon à Carnegie-Mellon et au projet Stanford I.A. (fondé par John McCarthy en 1963)[76]. Un autre laboratoire important d'IA est établi à l'université d'Édimbourg par Donald Michie en 1965[77]. Ces quatre institutions continuent d'être les principaux centres de recherche en IA au niveau académique pendant de nombreuses années[78].
L'argent est distribué avec peu de contrôle. L'ancien professeur de Minsky à Harvard, J. C. R. Licklider, alors à la tête du « Bureau des Techniques de Traitement de l'Information » (IPTO) et directeur du Programme Command & Control de l'ARPA, pense que son organisation doit « financer des personnes, pas des projets ! » et autorise les chercheurs à poursuivre toutes les pistes qui leur semblent intéressantes[79]. Cela crée une atmosphère de liberté totale au MIT qui donne ainsi naissance à la culture hacker[80]. À Licklider (1962-64) succèdent Ivan Sutherland (1964-66), Robert Taylor (1966-69) et Lawrence Roberts (1969-1972), tous proches du MIT et dans la continuité de Licklider vis-à-vis de l'IA. Néanmoins cette attitude non interventionniste ne dure pas.
Dans les années 1970, l'intelligence artificielle subit critiques et revers budgétaires, car les chercheurs en intelligence artificielle n'ont pas une vision claire des difficultés des problèmes auxquels ils sont confrontés. Leur immense optimisme a engendré une attente excessive et quand les résultats promis ne se matérialisent pas, les investissements consacrés à l'intelligence artificielle s'étiolent[81]. Dans la même période, le connexionisme a été presque complétement mis sous le boisseau pour 10 ans par la critique dévastatrice de Marvin Minsky sur les perceptrons[82]. Malgré l'image négative de l'intelligence artificielle dans le grand public à la fin des années 1970, de nouvelles idées sont explorées en programmation logique, raisonnement de bon sens[Note 4] et dans d'autres directions[83].
Au début des années 1970, les capacités des programmes d'IA sont limitées. Les plus performants peinent à manipuler des versions simplistes des problèmes qu'ils sont supposés résoudre et tous les problèmes sont, d'une certaine manière, des « broutilles[84] ». De fait, les chercheurs en IA font face à plusieurs limites fondamentales insurmontables et bien que certaines limites soient dépassées depuis, d'autres demeurent de vrais obstacles[85].
La puissance et la mémoire de l'époque étaient considérées à juste titre comme un véritable frein à des applications pratiques ; elles suffisaient à peine pour démontrer des modèles simplistes.
Ainsi, le travail de Ross Quillian sur le langage naturel est limité à un vocabulaire de vingt mots, car la mémoire ne peut pas en contenir plus[86].
En outre, Hans Moravec se plaint en 1976 du fait que les ordinateurs soient des millions de fois trop faibles pour faire montre d'une quelconque intelligence, qu'ils sont loin d'atteindre le seuil critique minimal. Pour mieux faire comprendre ce qu'il entend par seuil, il utilise l'analogie suivante : « En dessous d'un certain niveau de puissance, un avion reste plaqué au sol et ne peut pas décoller du tout, c'est juste impossible ». Néanmoins comme la puissance informatique augmente, ça finira par devenir possible[87],[Note 5].
Quant à la vision par ordinateur, Moravec estime que le simple fait d'égaler les capacités de la rétine humaine à détecter les mouvements et les contours en temps réel (problème simple de nos jours) nécessiterait un ordinateur générique capable de 109 opérations par seconde (1 000 MIPS[88]). Par comparaison, l'ordinateur le plus rapide en 1976, le Cray-1 (vendu entre 5 et 8 000 000 $), est seulement capable d'environ 80 à 130 MIPS, et un ordinateur de bureau typique de l'époque n'atteint même pas 1 MIPS. En fait, son estimation, impressionnante pour l'époque, s'est avérée trop optimiste : en 2011, les applications de vision par ordinateur concrètes ont besoin de dix à mille fois plus de puissance, se situant plutôt entre 10 000 à 1 000 000 MIPS.
En 1972, à la suite du théorème de Cook, Richard Karp a montré qu'il y avait de nombreux problèmes très difficiles, pour lesquels trouver des solutions optimales était impensable, avec comme conséquence que les problèmes fondamentaux de l'intelligence artificielle ne passeront pas à l'échelle[89].
De nombreuses applications majeures d'intelligence artificielle comme la vision par ordinateur ou le traitement automatique du langage naturel ont besoin d'énormes quantités d'information du monde réel pour mettre en place des programmes capable de « comprendre » ce qu'il voit ou de discuter. Dès les années 1970, les chercheurs dans ces domaines découvrent que la quantité d'information correspondante est très grande, bien qu'un enfant l'acquiert très rapidement. À cette époque, il n'était pas envisageable de construire une telle base de données ni un programme capable de gérer autant d'information[90],[91],[92].
Les chercheurs en intelligence artificielle et en robotique Hans Moravec, Rodney Brooks et Marvin Minsky mirent en évidence que le raisonnement de haut niveau est souvent plus facile à reproduire et simuler par un programme informatique que les aptitudes sensorimotrices humaines. Ceci peut sembler contre-intuitif du fait qu'un humain n'a pas de difficulté particulière à effectuer des tâches relevant de cette dernière catégorie, contrairement à la première.
Par exemple, démontrer des théorèmes ou résoudre des problèmes géométriques est relativement faisable par les ordinateurs, mais une tâche plus simple pour un humain, comme reconnaître un visage ou traverser une pièce sans collision, a longtemps été très compliqué pour les machines. Ainsi, la recherche en vision par ordinateur et en robotique a fait peu de progrès au milieu des années 1970[93],[94].
Les chercheurs en IA (comme John McCarthy) qui se sont servis de la logique ont découvert qu'ils ne pouvaient pas représenter des déductions ordinaires qui impliquaient de la planification ou des raisonnements par défaut sans avoir à modifier la structure de la logique elle-même. Ils ont dû développer de nouvelles logiques (comme les logiques non monotones et modales) pour essayer de résoudre ces problèmes[95].
Les agences qui ont investi dans la recherche en IA (comme le gouvernement britannique, la DARPA et le NRC, Conseil américain de la recherche) deviennent frustrées par le manque de progrès et finissent par couper pratiquement tous les fonds de recherche fondamentale en IA. Ce comportement commence dès 1966 quand un rapport de l'ALPAC[Note 6] paraît critiquer les efforts de traduction automatisée. Après avoir dépensé 20 millions de dollars, le NRC décide de tout arrêter[96]. En 1973, le Rapport Lighthill (en) sur l'état de la recherche en IA en Angleterre a critiqué l'échec lamentable de l'IA à atteindre ses « ambitieux objectifs » et a conduit au démantèlement de la recherche en IA dans ce pays[97] (Ce rapport mentionne en particulier le problème d'explosion combinatoire comme une des raisons des échecs de l'IA[98]). Quant à la DARPA, elle a été extrêmement déçue par les chercheurs travaillant dans le programme Speech Understanding Research à Carnegie-Mellon et a annulé une subvention annuelle de trois millions de dollars[99]. Vers 1974, trouver des financements pour des projets d'IA était donc chose rare.
Hans Moravec a attribué la crise aux prédictions irréalistes de ses collègues. « Beaucoup de chercheurs se sont retrouvés piégés dans un entrelacs d'exagérations croissantes[100]. » Un autre problème est apparu : le vote de l'amendement Mansfield en 1969, a mis la DARPA sous une pression croissante pour qu'elle ne finance que des « recherches directement applicables, plutôt que des recherches exploratoires fondamentales ». Un financement pour de l'exploration créative, en roue libre, tel qu'il avait cours dans les années soixante ne viendrait plus de la DARPA. Au lieu de cela, l'argent était redirigé vers des projets spécifiques avec des objectifs précis, comme des chars de combat autonomes ou des systèmes de gestion de batailles[101].
Plusieurs philosophes émettent de fortes objections aux affirmations des chercheurs en IA. Un des premiers opposants est John Lucas, qui s'appuie sur le théorème d'incomplétude de Gödel pour contester l'aptitude des démonstrateurs automatiques de théorèmes à démontrer certaines affirmations[102]. Hubert Dreyfus ridiculise les promesses non tenues des années soixante et critique les hypothèses de l'IA, argumentant que le raisonnement humain avait en fait besoin de très peu de « traitement symbolique » mais surtout de sentiment d’embodiment, d'instinct, d'un « savoir-faire » inconscient[103],[104]. L'argument de la chambre chinoise avancé par John Searle en 1980, tente de montrer qu'on ne peut pas dire qu'un programme « comprend » les symboles qu'il utilise (une qualité appelée « intentionnalité »). Si les symboles n'ont aucun sens pour la machine, on ne peut, dixit Searle, qualifier la machine de « pensante[105] ».
Ces critiques ne sont pas vraiment prises en considération par les chercheurs en IA, tant certaines ne visent pas l'essence du problème. Les questions telles que l'indécidabilité, la complexité inhérente ou la définition de la culture générale semblent beaucoup plus immédiates et graves. Ils pensent que la différence entre le « savoir-faire » et l'« intentionnalité » n'apporte presque rien à un programme informatique. Minsky dit de Dreyfus et Searle qu'« ils ont mal compris la question et on devrait les ignorer[106] ». Les critiques de Dreyfus, qui enseigne au MIT, sont accueillies fraîchement : il a plus tard avoué que les chercheurs en IA « n'osaient pas manger avec moi de peur que nous soyons vus ensemble[107] ». Joseph Weizenbaum, l'auteur d'ELIZA, considère, lui, que le comportement de ses collègues à l'égard de Dreyfus est non professionnel et infantile. Bien qu'il critique ouvertement les positions de Dreyfus, il fait clairement comprendre que ce n'est pas [comme cela] qu'il faut traiter quelqu'un[108].
Weizenbaum commence à avoir de sérieux doutes éthiques à propos de l'IA quand Kenneth Colby écrit DOCTOR, un agent conversationnel thérapeute. Weizenbaum est gêné par le fait que Colby voit en son programme sans esprit un outil thérapeutique sérieux. Une querelle éclate alors, et la situation empire quand Colby omet de mentionner la contribution de Weizenbaum au programme. En 1976, Weizenbaum publie Puissance informatique et raison humaine (en) qui explique que le mauvais usage de l'intelligence artificielle peut potentiellement conduire à dévaloriser la vie humaine[109].
Un perceptron est un type de réseaux neuronaux introduit en 1958 par Frank Rosenblatt[110]. Comme la plupart des chercheurs en IA de l'époque, il est optimiste, prédisant qu'« un perceptron pourra être capable d'apprendre, de prendre des décisions, et de traduire les langues ». Un programme de recherche dynamique sur ces concepts est mené dans les années soixante, mais il s'arrête brutalement après la publication du livre de Minsky et Papert en 1969 intitulé Perceptrons. Ce livre constate plusieurs limites à ce que les perceptrons peuvent faire et note plusieurs exagérations dans les prédictions de Frank Rosenblatt. L'effet du livre est dévastateur : aucune recherche dans le domaine du connexionnisme ne se fait pendant dix ans. Ce n'est qu'après une décennie, qu'une nouvelle génération de chercheurs se réattaque au problème, notamment en France, Guy Perennou et Serge Castan[111].
John McCarthy introduit l'usage de la logique en IA dès 1958, dans son Advice Taker[Note 7],[112]. En 1963, J. Alan Robinson découvre une méthode relativement simple pour implémenter la déduction. Pour cela il invente les concepts de résolution et d'unification. En effet, des implémentations plus directes, comme celles essayées par McCarthy et ses étudiants à la fin des années soixante, se sont révélées particulièrement inefficaces, car les algorithmes requièrent un nombre astronomique d'étapes pour démontrer des théorèmes très simples[113]. Une utilisation plus fructueuse de la logique a été développée dans les années 1970 par Alain Colmerauer et Philippe Roussel à l'université de Marseille-Luminy et Robert Kowalski (en) à l'université d'Édimbourg qui ont créé le langage de programmation Prolog[114]. Prolog utilise un sous-ensemble du calcul des prédicats, les clauses de Horn, qui permet des calculs plus efficaces. D'autres chercheurs utilisent des règles de production, notamment les systèmes experts d'Edward Feigenbaum et les logiciels d'Allen Newell et Herbert Simon qui conduit à Soar et la Théory unifiée de la cognition [« Unified Theory of Cognition »], [115].
L'approche logique a été critiquée dès son apparition. Ainsi Hubert Dreyfus note que les êtres humains se servent rarement de logique quand ils résolvent des problèmes. Les expériences de psychologues tels que Peter Wason, Eleanor Rosch, Amos Tversky, Daniel Kahneman et d'autres corroborent plus ou moins cet avis[116]. McCarthy a rétorqué que ce que les humains font n'est pas pertinent, expliquant que le but est d'avoir des machines qui peuvent résoudre des problèmes, pas des machines qui pensent comme des humains[117]. Mais la critique la plus sévère de l'approche fondée sur la déduction automatique vient du théoricien de l'informatique Stephen Cook qui montre dans son célèbre article The Complexity of Theorem-Proving Procedures (« La complexité des procédures de démonstration de théorèmes ») qu'il n'y a pas de procédures automatiques efficaces de démonstration de théorèmes sauf si P = NP.
Parmi les critiques de l'approche de McCarthy on trouve ses collègues à travers le pays au MIT Marvin Minsky, Seymour Papert et Roger Schank ont essayé de résoudre des problèmes comme la « compréhension d'une histoire » et la « reconnaissance d'objets » qui requièrent d'une machine de penser comme une personne. Pour manipuler des concepts ordinaires comme une « chaise » ou un « restaurant », elles doivent faire toutes les mêmes hypothèses plus ou moins logiques que les gens font habituellement. Malheureusement, de tels concepts imprécis sont difficiles à représenter en logique. Gerald Sussman observe qu'« utiliser un langage précis pour décrire des concepts imprécis ne rend pas ces derniers plus précis[118] ». Schank décrit ces approches alogiques comme « brouillonnes (en) », qu'il oppose aux paradigmes « élégants (en) » utilisés par McCarthy, Kowalski, Feigenbaum, Newell et Simon[119].
En 1975, Minsky remarque que beaucoup de ses pairs « brouillons » utilisent la même approche, à savoir un cadre de travail qui englobe toutes les hypothèses de culture générale (en) d'un thème donné. Par exemple, si on manipule le concept « oiseau », une multitude de faits viennent à l'esprit, ainsi on peut prétendre qu'il vole, qu'il mange des vers, etc.. On sait que ces faits ne sont pas toujours vrais et que les déductions à partir de ces faits ne sont pas toutes « logiques », mais ces ensembles structurés d'hypothèses font partie du contexte de nos discussions ou de nos pensées. Minsky appelle ces structures des « cadres ». Schank, quant à lui, introduit une variante des cadres qu'il appelle des « scripts » afin de répondre à des questions sur des romans anglophones[120]. Certains affirment que quelques années plus tard la programmation orientée objet empruntera aux cadres de l'intelligence artificielle la notion d'« héritage ».
Dans les années 1980, des programmes d'IA appelés « systèmes experts » sont adoptés par les entreprises et la connaissance devient le sujet central de la recherche en IA. Au même moment, le gouvernement japonais finance massivement l'IA à travers son initiative « ordinateurs de cinquième génération (en) ». Un autre évènement est la renaissance du connexionnisme à travers les travaux de John Hopfield et David Rumelhart.
Un système expert est un programme qui répond à des questions ou résout des problèmes dans un domaine de connaissance donné, à l'aide de règles logiques dérivées de la connaissance des experts humains de ce domaine. Les tout premiers exemplaires sont développés par Edward Feigenbaum et ses étudiants. Dendral, commencé en 1965, identifie des composants chimiques à partir de relevés spectrométriques. Mycin, développé en 1972, permet de diagnostiquer des maladies infectieuses du sang. Ces programmes confirment la viabilité de l'approche[121].
Les systèmes experts se limitent volontairement à un petit domaine de connaissance spécifique (esquivant ainsi le problème de culture générale) et leur conception simple permet de construire ces logiciels relativement facilement et de les améliorer une fois déployés. Finalement, ces programmes se révèlent utiles, car c'est la première fois que l'intelligence artificielle trouve une application pratique[122].
En 1980, un système expert appelé Xcon, dont l'objectif est d'optimiser la configuration des ordinateurs VAX à livrer aux clients, est réalisé par Carnegie-Mellon pour DEC. Le succès est énorme, car l'entreprise peut économiser dès 1986 jusqu'à 40 millions de dollars par an[123]. Dès lors, les sociétés de par le monde commencent à développer et à déployer leurs systèmes experts et vers 1985 plus d'un milliard de dollars est dépensé en intelligence artificielle, majoritairement dans les centres industriels de recherche et développement. Tout un secteur industriel se crée autour des systèmes experts, dont des constructeurs de matériel informatique comme Symbolics et LMI (Lisp Machines, Inc.) et des éditeurs de logiciels tels que IntelliCorp et Aion[124].
La puissance des systèmes experts vient de l'expertise qu'ils contiennent. Ils font partie d'une nouvelle direction de recherche en IA qui a gagné du terrain dans les années 1970. « Les chercheurs en IA commençaient à soupçonner — avec réticence, car ça allait contre le canon scientifique de parcimonie — que l'intelligence puisse très bien être basée sur la capacité à utiliser une large quantité de savoirs divers de différentes manières[125] » remarque Pamela McCorduck. « La grande leçon des années soixante-dix a été que les comportements intelligents dépendaient énormément du traitement de la connaissance, parfois d'une connaissance très avancée dans le domaine d'une tâche donnée[126]. » Les systèmes de bases de connaissance et l'ingénierie des connaissances sont devenus centraux dans la recherche en intelligence artificielle des années 1980[127].
Les années 1980 ont aussi vu la naissance de Cyc, la première tentative d'attaque frontale du problème de culture générale : une base de données gigantesque a été créée dans le but de contenir tous les faits triviaux qu'une personne moyenne connaît. Douglas Lenat, qui a démarré et dirigé le projet, argumente qu'il n'y a aucun raccourci ― le seul moyen pour des machines de connaître la signification de concepts humains était de leur apprendre, un concept à la fois, et manuellement. On s'attend bien sûr à ce que le projet se déroule sur plusieurs décennies[128].
En 1981, le ministère japonais de l'Économie, du Commerce et de l'Industrie réserve 850 millions de dollars pour le projet des ordinateurs de cinquième génération (en). Leur objectif est d'écrire des programmes et de construire des machines qui peuvent tenir des conversations, traduire, interpréter des images et raisonner comme des êtres humains[129]. Au grand dam des tenants de l'approche brouillonne (en), ils choisissent Prolog comme langage informatique principal de leur projet[130], qu'ils modifient d'ailleurs assez profondément pour qu'il s'adapte à leur besoin.
D'autres pays répondent avec de nouveaux programmes équivalents. Le Royaume-Uni démarre le projet Alvey (en) de 350 millions de livres. Un consortium d'entreprises américaines forment la Microelectronics and Computer Technology Corporation (ou MCC) pour financer des projets en informatique et en intelligence artificielle à grande échelle[131],[132]. La DARPA a aussi réagi en fondant la Strategic Computing Initiative (Initiative Informatique Stratégique) et en triplant ses investissements en IA entre 1984 et 1988[133].
En 1982, le physicien John Hopfield a démontré qu'un certain type de réseau neuronal (désormais appelé un « réseau de Hopfield ») pouvait apprendre et traiter de l'information d'une manière totalement inédite. Au cours de la même période, David Rumelhart a rendu populaire une nouvelle méthode de formation des réseaux neuronaux appelée « rétropropagation du gradient » (découverte quelques années avant par Paul Werbos). Ces deux nouvelles découvertes ont fait renaître le champ du connexionnisme qui avait été largement abandonné depuis 1970[132],[134].
Le tout jeune domaine a été unifié et inspiré par l'apparence du Traitement Parallèle Distribué de 1986 — une collection d'articles en deux volumes éditée par Rumelhart et le psychologue McClelland. Les réseaux neuronaux deviendront un succès commercial dans les années 1990, quand on commencera à les utiliser comme moteurs d'applications telles que la reconnaissance optique de caractères et la reconnaissance vocale[132],[135].
La fascination de la communauté économique pour l'intelligence artificielle a gonflé puis chuté dans les années 1980 en suivant le schéma classique d'une bulle économique. L'effondrement de l'IA a eu lieu au niveau de la perception que les investisseurs et les agences gouvernementales en avaient — le domaine scientifique continue ses avancées malgré les critiques. Rodney Brooks et Hans Moravec, chercheurs dans le domaine voisin de la robotique, plaident pour une approche entièrement neuve de l'intelligence artificielle.
L'expression « hiver de l'IA » a circulé parmi les chercheurs qui, ayant déjà vécu les coupes de budget de 1974, réalisent avec inquiétude que l'excitation autour des systèmes experts est hors de contrôle et qu'il y aurait sûrement de la déception derrière[136]. Leurs craintes sont effectivement fondées : entre la fin des années 1980 et le début des années 1990, l'intelligence artificielle a subi une série de coupes budgétaires.
Les premiers indices d'une tempête à venir ont été le brusque effondrement du marché du matériel informatique spécialiste de l'intelligence artificielle en 1987. Les ordinateurs de bureau d'Apple et IBM ont progressivement amélioré leur vitesse et leur puissance et en 1987 ils deviennent plus performants que les fleurons du marché, tels que la meilleure machine Lisp de Symbolics. Il n'y a donc plus aucune raison de les acheter. Du jour au lendemain, une industrie d'un demi-milliard de dollars disparaît totalement[137].
Finalement, les premiers systèmes experts à succès comme le Xcon ont un coût de maintenance trop élevé. Ils sont difficiles à mettre à jour, ils ne peuvent pas apprendre, ils sont trop « fragiles (en) » (ainsi, ils peuvent faire des erreurs grotesques quand les paramètres sortent des valeurs habituelles), et s'empêtrent dans des problèmes (tels que le problème de qualification). Les systèmes experts se sont révélés utiles, mais uniquement dans des contextes très spécifiques[138].
À la fin des années 1980, la Strategic Computing Initiative[Note 8] de la DARPA a complétement et abruptement coupé ses subsides à l'intelligence artificielle. Une nouvelle direction de la DARPA ayant conclu que l'intelligence artificielle n'est plus de « dernière mode », elle a redirigé les subventions vers des projets plus propices à des résultats rapides[139].
Vers 1991, les objectifs impressionnants listés en 1981 par le Japon pour ses Ordinateurs de cinquième génération n'ont pas été atteints. D'ailleurs certains d'entre eux, comme le fait de « mener une conversation ordinaire » ne l'ont toujours pas été vingt ans plus tard[140]. Comme pour d'autres projets en intelligence artificielle, la barre a été placée beaucoup trop haut[140].
À la fin des années 1980, plusieurs chercheurs plaident pour une approche de l'intelligence artificielle complètement inédite, centrée sur la robotique[141]. Ils pensent que pour mettre en évidence une vraie intelligence, une machine doit avoir conscience de son corps — elle doit percevoir, bouger, survivre et évoluer dans le monde. Ils expliquent que ces capacités senso-motrices sont essentielles aux capacités de plus haut niveau telles que le raisonnement de culture générale et que le raisonnement abstrait est en fait la capacité humaine la moins intéressante ou importante (cf. le paradoxe de Moravec). Ils défendent une intelligence « par la base[142]. »
L'approche ravive des concepts nés de la cybernétique et de la régulation qui ont perdu de leur impact depuis les années soixante. Un des précurseurs, David Marr, est arrivé au MIT à la fin des années 1970 fort de réussites passées en neuroscience théorique afin d'y diriger le groupe étudiant la vision. Il réfute toutes les approches symboliques (à la fois la logique de McCarthy et les cadres de Minsky), arguant que l'intelligence artificielle a besoin de comprendre la machinerie physique de la vision par le bas avant qu'un traitement symbolique puisse être mis en place. Son travail a été brusquement interrompu par la leucémie qui l'a frappé en 1980[143].
Dans un article de 1990 intitulé Elephants Don't Play Chess[144] (« Les éléphants ne jouent pas aux échecs »), le chercheur en robotique Rodney Brooks vise directement l'hypothèse de système symbolique physique, expliquant que les symboles ne sont pas toujours nécessaires car « le monde est son propre modèle et c'est le meilleur. Il est toujours parfaitement à jour. Il contient toujours tous les détails nécessaires. Ce qu'il faut, c'est le mesurer correctement de manière répétée[145] ». Dans les années 1980 et 1990, beaucoup de cogniticiens rejettent également le modèle de traitement symbolique de l'esprit en expliquant que le corps est essentiel dans le raisonnement, une thèse appelée embodiment[146].
Le champ de l'intelligence artificielle, avec plus d'un demi-siècle derrière lui, a finalement réussi à atteindre certains de ses plus anciens objectifs. On a commencé à s'en servir avec succès dans le secteur technologique, même sans avoir vraiment été mise en avant. Quelques réussites sont venues avec la montée en puissance des ordinateurs et d'autres ont été obtenues en se concentrant sur des problèmes isolés spécifiques et en les approfondissant avec les plus hauts standards d'intégrité scientifique. Néanmoins, la réputation de l'IA, dans le monde des affaires au-moins, est loin d'être parfaite. En interne, on n'arrive pas à vraiment expliquer les raisons de l'échec de l'intelligence artificielle à répondre au rêve d'un niveau d'intelligence équivalent à l'Homme qui a captivé l'imagination du monde dans les années 1960. Tous ces facteurs expliquent la fragmentation de l'IA en de nombreux sous-domaines concurrents consacrés à une problématique ou une voie précise, allant même parfois jusqu'à choisir un nom qui évite l'expression désormais souillée d'« intelligence artificielle[147] ». L'IA a du coup été à la fois plus prudente mais aussi plus fructueuse que jamais.
Le , Deep Blue est devenu le premier système informatique de jeu d'échecs à battre le champion du monde en titre, Garry Kasparov[148]. En 2005, un robot de Stanford a remporté le DARPA Grand Challenge en conduisant de manière autonome pendant 131 milles sur une piste de désert sans avoir fait de reconnaissance préalable[149]. Deux ans plus tard, une équipe de Carnegie-Mellon remporte le DARPA Urban Challenge, cette fois en naviguant en autonome pendant 55 milles dans un environnement urbain tout en respectant les conditions de trafic et le code de la route[150]. En , dans un match de démonstration du jeu télévisé Jeopardy!, les deux plus grands champions de Jeopardy!, Brad Rutter et Ken Jennings ont été battus avec une marge confortable par le système de questions-réponses conçu par IBM, au centre de recherche Watson[151].
Ces succès ne reposent pas sur de nouveaux paradigmes révolutionnaires, mais sur une application minutieuse des techniques d'ingénierie et sur la puissance phénoménale des ordinateurs[152]. En effet, la machine Deep Blue est 10 millions de fois plus rapide que la Ferranti Mark I à qui Christopher Strachey a appris à jouer aux échecs en 1951[Note 9]. Cette augmentation spectaculaire suit la loi de Moore, qui prédit que la vitesse et la capacité de mémoire des ordinateurs doublent tous les deux ans. N'est-on pas en train de faire sauter le verrou de la « puissance informatique » ?
Un nouveau paradigme, les « agents intelligents », s'est progressivement imposé au cours des années 1990[153]. Bien que les premiers chercheurs aient proposé des approches modulaires de type « diviser pour régner » en intelligence artificielle[154], l'agent intelligent n'a pas atteint sa forme moderne avant que Judea Pearl, Allen Newell et d'autres n'y amènent des concepts de théorie de la décision et d'économie[155]. Quand la définition économique de l'agent rationnel s'est combinée à la définition informatique de l'objet ou encore du module, le paradigme de l'agent intelligent s'installe.
Un agent intelligent est un système qui perçoit son environnement et entreprend des actions qui maximisent ses chances de réussite. Grâce à cette définition, de simple programmes qui résolvent des problèmes spécifiques sont des « agents intelligents », tout comme le sont des êtres humains et des organisations d'êtres humains comme les entreprises. Le paradigme de l'agent intelligent définit l'intelligence artificielle comme l'« étude des agents intelligents ». C'est une généralisation de certaines des premières définitions de l'IA : elle va au-delà de l'étude de l'intelligence humaine ; elle étudie tout type d'intelligence[156].
Ce paradigme a ouvert aux chercheurs la voie vers l'étude de problèmes isolés ; les solutions trouvées sont à la fois vérifiables et utiles. Un langage commun permet de décrire les problèmes et partager leurs solutions entre les uns et les autres, et d'autres domaines ont également utilisé ce concept d'agents abstraits, comme l'économie et la régulation. On pense qu'une « architecture agent » (comme la Soar de Newell) permettrait un jour à des chercheurs de construire des systèmes plus polyvalents et intelligents à base d'agents intelligents[155],[157].
Les chercheurs en intelligence artificielle développent et utilisent des outils mathématiques sophistiqués comme jamais auparavant[158]. Ils prennent conscience que de nombreux problèmes que l'intelligence artificielle doit résoudre ont déjà été traités dans d'autres domaines comme les mathématiques, l'économie ou la recherche opérationnelle. En particulier, les mathématiques permettent à la fois d'améliorer la collaboration avec des disciplines plus solidement fondées et conduisent à des fertilisations croisées et à la collecte de données mesurables et démontrables ; l'intelligence artificielle progresse vers l'« orthodoxie scientifique ». Russell et Norvig 2003 qualifie cela de rien de moins qu'une « révolution » et de la « victoire des élégants (en)[159],[160] ».
Le livre-charnière de 1988 de Judea Pearl[161] intègre les probabilités et la théorie de la décision avec les réseaux bayésiens, les modèles de Markov cachés, la théorie de l'information, le calcul stochastique et plus généralement l'optimisation mathématique. Des descriptions mathématiques s'appliquent aux paradigmes primordiaux de l'« intelligence computationnelle » comme les réseaux neuronaux et les algorithmes évolutionnistes[159].
Des algorithmes initialement développés par des chercheurs en intelligence artificielle commencent à faire partie de systèmes plus larges. L'IA a résolu beaucoup de problèmes très complexes[162] et leurs solutions ont servi à travers tout le secteur technologique[163], tels que l'exploration de données, la robotique industrielle, la logistique[164], la reconnaissance vocale[165], des applications bancaires[166], des diagnostics médicaux[166], la reconnaissance de formes, et le moteur de recherche de Google[167].
Le domaine de l'intelligence artificielle n'a quasiment reçu aucun crédit pour ces réussites. Certaines de ses plus grandes innovations ont été réduites au statut d'un énième item dans la boîte à outils de l'informatique[168]. Nick Bostrom explique : « Beaucoup d'IA de pointe a filtré dans des applications générales, sans y être officiellement rattachée car dès que quelque chose devient suffisamment utile et commun, on lui retire l'étiquette d'IA[169]. »
Beaucoup de chercheurs en intelligence artificielle dans les années quatre-vingt-dix ont volontairement appelé leurs études par d'autres noms, tels que l'informatique, les systèmes à base de connaissances, les systèmes cognitifs ou l'intelligence computationnelle. Cela peut être partiellement car ils considèrent leur domaine comme fondamentalement différent de l'IA, mais aussi car ces nouveaux noms facilitent les financements. Dans le secteur commercial au-moins, les promesses non tenues de l'hiver de l'IA continuent de hanter la recherche en intelligence artificielle, comme le New York Times le rapporte en 2005 : « Les scientifiques en informatique et les ingénieurs logiciel ont évité l'expression 'intelligence artificielle' par crainte d'être considérés comme de doux illuminés rêveurs[170],[171],[172]. »
La science-fiction avait imaginé pour 2001 l'arrivée de HAL 9000, une machine ayant une intelligence comparable, voire excédant les capacités des êtres humains.
En 1968, Arthur C. Clarke et Stanley Kubrick imaginent que dès l'année 2001, une machine aura une intelligence comparable, voire excédant les capacités des êtres humains. Le personnage qu'ils créent, HAL 9000, s'appuie sur une opinion répandue chez nombre de chercheurs en intelligence artificielle à savoir qu'une telle machine existera en 2001[173].
Marvin Minsky s'interroge : « pourquoi n'avons-nous pas eu HAL en 2001[174] ? » et pense que des problèmes centraux comme le raisonnement de culture générale, sont négligés, car la plupart des chercheurs se concentrent sur des aspects tels que des applications commerciales des réseaux neuronaux ou des algorithmes génétiques. John McCarthy, d'un autre côté, blâme encore le problème de qualification[175]. Pour Ray Kurzweil, le problème réside dans le manque de puissance de calcul et, en s'appuyant sur la loi de Moore, il prédit que les machines avec une intelligence comparable à l'humain arriveront vers 2030[176]. Pour d'autres chercheurs, une intelligence artificielle forte (ou intelligence artificielle générale) ne serait possible que dans plusieurs décennies, voire plusieurs siècles[177].
À partir des années 2000, on constate l'arrivée de plusieurs assistants personnels « intelligents » : Apple Siri en 2007, Google Now en 2012 (nommé assistant Google depuis 2018), Microsoft Cortana et Amazon Alexa en 2014.
L'intelligence artificielle est un sujet d'actualité au XXIe siècle. En 2004, le Singularity Institute a lancé une campagne Internet appelée 3 Laws Unsafe (« 3 lois dangereuses »), pour sensibiliser à l'insuffisance des trois lois d'Asimov avant la sortie du film I, Robot[178],[179].
En 2005, le projet Blue Brain est lancé, qui vise à simuler le cerveau des mammifères. Il s'agit d'une des méthodes envisagées pour réaliser une IA. Ils annoncent de plus comme objectif de fabriquer en dix ans le premier « vrai » cerveau électronique[180]. En , le gouvernement sud-coréen annonce que plus tard dans l'année, il émettrait une charte sur l'éthique des robots, afin de fixer des normes pour les utilisateurs et les fabricants. Selon Park Hye-Young, du ministère de l'Information et de la communication, la Charte reflète les trois lois d'Asimov : la tentative de définition des règles de base pour le développement futur de la robotique. En , en Californie, dans une conférence organisée par l'Association for the Advancement of Artificial Intelligence (AAAI), un groupe d'informaticiens se demande s'il devrait y avoir des limites sur la recherche qui pourrait conduire à une perte de contrôle des systèmes informatiques par l'humanité. Il y abordent les progrès et le potentiel de l'IA, ainsi que les risques associés aux armes léthales autonomes, au chômage technologique et aux concepts d'explosion d'intelligence et de singularité technologique[181].
En 2009, le Massachusetts Institute of Technology (MIT) a lancé un projet visant à repenser la recherche en intelligence artificielle. Il réunira des scientifiques qui ont eu du succès dans des domaines distincts de l'IA. Neil Gershenfeld déclare « Nous voulons essentiellement revenir 30 ans en arrière et revisiter certaines idées qui ont été gelées »[182].
En , l'US Air Force cherche à acquérir 2 200 PlayStation 3[183] pour utiliser le processeur cell à sept ou huit cœurs qu'elle contient dans le but d'augmenter les capacités de leur superordinateur constitué de 336 PlayStation 3 (total théorique 52,8 petaFLOPS en double précision). Le nombre sera réduit à 1 700 unités le [184]. Le projet vise le traitement vidéo haute-définition, et l'« informatique neuromorphique », ou la création de calculateurs avec des propriétés/fonctions similaires au cerveau humain[183].
Depuis 2009, le deep learning s'est imposé dans de nombreux domaines comme la reconnaissance vocale, la vision par ordinateur ou la traduction[185], notamment grâce à l'augmentation des capacités de calcul et de la quantité de données disponibles[186].
En 2010, au Royaume-Uni, le neuro-scientifique Demis Hassabis fonde l'entreprise DeepMind, avec pour objectif la création d'une intelligence artificielle générale qui serait capable de faire tout ce que le cerveau d'un être humain pourrait faire[187]. En 2014, DeepMind est rachetée par Google[188]. En 2016, l'IA AlphaGo de DeepMind a battu le meilleur joueur de go au monde[189]. Par la suite, DeepMind créa des programmes d'apprentissage par renforcement profond de plus en plus généralistes, dont AlphaGo Zero, AlphaZero et MuZero[190]. AlphaStar, créé en 2019, a atteint le niveau de grand-maître au jeu de stratégie en temps réel Starcraft 2[191]. Gato, réalisé en 2022, est capable de réaliser environ 600 tâches différentes sans nécessiter de réentraînement[192]. En 2023, DeepMind est fusionnée avec Google Brain et renommée « Google DeepMind »[193].
Le , Watson, le superordinateur conçu par IBM, remporte deux des trois manches du jeu télévisé Jeopardy! en battant largement ses deux concurrents humains en gains cumulés. Pour cette IA, la performance a résidé dans le fait de répondre à des questions de culture générale (et non un domaine technique précis) dans des délais très courts. En , l'artiste et designer Aaron Siegel propose de faire de Watson un candidat à l'élection présidentielle américaine afin de lancer le débat sur « le potentiel de l’intelligence artificielle dans la politique »[194].
En 2012, un réseau de neurones utilisant 16 000 Microprocesseur cœurs de processeur de 1000 processeurs d'ordinateur est capable, après entraînement, de reconnaître un chat sans qu'il lui ait été appris à reconnaître un chat[195].
En 2012, un réseau neuronal convolutif nommé AlexNet affiche des performances records en vision par ordinateur, notamment grâce à son utilisation de processeurs graphiques pour décupler les capacités de calcul, cette technique s'étant ensuite banalisée. Peu après, Google acquiert la startup DNNresearch de Geoffrey Hinton qui a développé AlexNet[196]. Raymond Kurzweil est engagé en par Google afin de participer et d'améliorer l'apprentissage automatique[188]. En , Google ouvre un laboratoire de recherches dans les locaux de la NASA. Grâce à un super calculateur quantique conçu par D-Wave Systems et qui serait d'après cette société 11 000 fois plus performant qu'un ordinateur classique[197], ils espèrent ainsi faire progresser l'intelligence artificielle, notamment l'apprentissage automatique. En 2017, des chercheurs de Google ont conçu l'architecture transformeur, dotée d'un mécanisme d'attention, qui a par la suite servi de base aux grands modèles de langage[3]. Google a par la suite conçu différents grands modèles de langage, comme LaMDA, PaLM, PaLM 2, Bard et Google Gemini.
Le Facebook Artificial Intelligence Research (FAIR), créé en 2013 et dirigé par le chercheur français Yann Le Cun, annonce en 2015 l'ouverture d'un laboratoire de recherche à Paris[198]. Apple a de son côté récemment acquis plusieurs start-up du secteur (Perceptio, VocalIQ, Emotient et Turi)[199].
Entre 2014 et 2015, à la suite du développement rapide du deep learning, quelques scientifiques et membres de la communauté high tech s'inquiètent du risque pour l'humanité que pourrait représenter une future superintelligence artificielle. Parmi eux, l'astrophysicien britannique Stephen Hawking[200], le fondateur de Microsoft Bill Gates[201] et le PDG de Tesla Elon Musk[202].
En 2015, OpenAI est créée avec un capital initial de 1 milliard de dollars venant d'investisseurs comme Reid Hoffman, Elon Musk et Peter Thiel. Sam Altman, l'ancien dirigeant de l'incubateur de start-up Y Combinator, en devient le PDG. Elon Musk quitte OpenAI en 2018. Dès 2019, s'engage dans un partenariat avec Microsoft[203]. Aussi en 2019, OpenAI a choisi de ne pas rendre public le code source du programme GPT-2, le jugeant capable de générer des fausses nouvelles réalistes et estimant qu'il risquerait d'être utilisé à des fins de désinformation[204]. En 2021, Dario Amodei et une dizaine d'autres employés d'OpenAI quittent l'entreprise pour monter Anthropic, une start-up d'IA priorisant la sûreté de l'IA[205]. Également en 2021, OpenAI s'associe avec Microsoft pour lancer GitHub Copilot, un logiciel de complétion de codebasé sur un grand modèle de langage[206]. En 2022, OpenAI lance DALL-E 2, un modèle d'IA pouvant générer des images correspondant à des textes, qui se retrouve rapidement concurrencé par Midjourney[207]. En 2022, l'agent conversationnel ChatGPT affiche une croissance inédite de popularité, atteignant 1 million d'utilisateurs en seulement 5 jours[203] et 100 millions d'utilisateurs en 2 mois[208].
En , des modèles d'intelligence artificielle développés par Microsoft et Alibaba réussissent chacun de leur côté à battre les humains dans un test de lecture et de compréhension de l'université Stanford. Le traitement du langage naturel imite la compréhension humaine des mots et des phrases et permet aux modèles d'apprentissage automatique de traiter de grandes quantités d'informations avant de fournir des réponses précises aux questions qui leur sont posées[209].
En 2023, des grands modèles multimodaux (capables de traiter plusieurs modalités comme le texte, les images, le son...) font leur apparition, dont Google Gemini[210] et GPT-4[211].
Des générateurs de vidéo, tels Sora, seront bientôt accessibles au grand public. Des générateurs de jeu vidéo sont en cours d'ébauche. ChatGPT peut générer un code source ultra basique de jeu très simple. Cela s'améliorera. Les robots domestiques vont être fabriqués en masse. La programmation par contrainte (physiques, économique, psychologies...), la vérification et la planification logicielle, tels que Q*, permettront aux logiciels de chat de ne plus avoir d'hallucinations.
La recherche en intelligence artificielle en France débute vers la fin des années soixante-dix, avec notamment le GR 22 (appelé aussi groupe de recherche Claude-François Picard où travaillent Jacques Pitrat et Jean-Louis Laurière) à Paris, le GIA (sic) (autour d'Alain Colmerauer) à Marseille, le LIMSI à Orsay, le CRIN à Nancy, le CERFIA à Toulouse et le Laboria (autour de Gérard Huet et dans un domaine très fondamental) à Rocquencourt.
Un congrès national annuel Reconnaissance de formes et intelligence artificielle est créé en 1979 à Toulouse[Note 10]. En lien avec l'organisation de la conférence International Joint Conference on Artificial Intelligence à Chambéry en 1993, et la création d'un GRECO-PRC[Note 11] intelligence artificielle, en 1983, il donne naissance à une société savante, l'AFIA en 1989, qui, entre autres, organise des conférences nationales en intelligence artificielle[212]. C'est de cette école française qu'est issu Yann Le Cun.
En janvier 2017, la CNIL publie un rapport intitulé « Comment permettre à l'Homme de garder la main ? »[213] incluant des recommandations pour la construction d'un modèle éthique d'intelligence artificielle. En , Cédric Villani, premier vice-président de l'Office parlementaire d'évaluation des choix scientifiques et technologiques (OPECST)[214], est chargé de mener une consultation publique sur l'intelligence artificielle[215]. Il rend son rapport le [216]. Le lendemain, Emmanuel Macron annonce un plan de 1,5 milliard d'euros sur l'ensemble du quinquennat, ainsi qu'une évolution de la législation française pour permettre la mise en application de l'intelligence artificielle, en particulier concernant la circulation des véhicules autonomes[217]. Il a exprimé sa vision de l'intelligence artificielle, à savoir que les algorithmes utilisés par l'État doivent être ouverts, que l'intelligence artificielle doit être encadrée par des règles philosophiques et éthiques et qu'il faut s'opposer à l'usage d'armes automatiques ou de dispositifs prenant des décisions sans consulter un humain[218],[219]. Pour le second quinquennat (2022-2026), un plan de financement pour l'IA de 2,22 milliards d'euros est prévu[220].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.