AlphaGo Zero
version améliorée du logiciel de go AlphaGo De Wikipédia, l'encyclopédie libre
version améliorée du logiciel de go AlphaGo De Wikipédia, l'encyclopédie libre
AlphaGo Zero est une version améliorée du logiciel de go AlphaGo produite par l'entreprise DeepMind introduite par un article dans la revue Nature du . Il s'agit d'une version développée sans l'aide de données provenant de parties jouées entre humains, ni de connaissances autres que les règles du jeu. Cette version est plus forte que n'importe quelle version précédente[1]. En jouant contre lui-même, AlphaGo Zero a dépassé la force de la version d’AlphaGo du match contre Lee Se-dol en trois jours en gagnant par 100 jeux à 0, a atteint le niveau d’AlphaGo Master en 21 jours, et a dépassé toutes les anciennes versions en 40 jours[2].
En , une version généraliste d'AlphaGo Zero, nommé AlphaZero, a battu une version d'AlphaGo Zero ayant 3 jours d'apprentissage à 60 parties à 40. Avec 8 heures de pratique, elle a surpassé la version d’AlphaGo lors du match contre Lee Se-dol sur l'échelle Elo, ainsi que le programme d'échecs de haut niveau Stockfish et le programme de shogi Elmo[3],[4].
Le réseau neural d'AlphaGo Zero a été formé en utilisant TensorFlow, en faisant travailler 64 processeurs graphiques (GPU) et 19 processeurs (CPU) paramétrés comme serveurs. Seulement quatre processeurs dédiés à l'apprentissage automatique (TPU, tensor processing unit) ont été utilisés pour les inférences. Initialement, le réseau de neurones ne savait rien d'autre du go que les règles du jeu. Contrairement aux versions antérieures d’AlphaGo, AlphaGo Zero, plutôt que de recevoir quelques situations programmés pour reconnaître quelques positions inhabituelles, n'appréhende que le plateau de jeu. L'IA est engagée dans l'apprentissage par renforcement, en jouant contre elle-même jusqu'à ce qu'elle puisse anticiper ses propres mouvements et l'incidence de ceux-ci sur le résultat du jeu. Dans les trois premiers jours, AlphaGo Zero a joué 4,9 millions de jeux contre lui-même en succession rapide. Il est apparu qu'il a développé les compétences requises pour battre les meilleurs joueurs humains en quelques jours, alors que les versions précédentes d'AlphaGo ont nécessité des mois de formation pour atteindre le même niveau.
En comparaison, les chercheurs ont également formé une version d'AlphaGo Zero en utilisant des parties jouées par des humains, et ont constaté qu'il a appris plus rapidement, mais en fait avec des performances moindre à long terme. DeepMind a présenté ses premières conclusions à Nature en , article ensuite publié en .
L'apprentissage par l’intelligence artificielle sans données provenant d'experts humains a d'importantes implications pour le développement d'IA à talents surhumains, car « les données d'experts sont souvent coûteuses, peu fiables ou tout simplement indisponibles »[5]. Demis Hassabis, cofondateur et directeur de DeepMind, a déclaré qu’AlphaGo Zero est devenu aussi fort parce qu'il n'était « plus contraint par les limites de la connaissance humaine »[6]. Selon David Silver de DeepMind il est possible de généraliser ces algorithmes à apprentissage autonome[7]
Le coût du matériel pour un seul système AlphaGo Zero, y compris les composants personnalisés, a été estimé à 25 millions de dollars.
Selon Hassabis, les algorithmes d'AlphaGo sont susceptibles d'être le plus utile dans des domaines nécessitant de fouiller un vaste champ de possibles, telles que le repliement des protéines ou la simulation précise de réactions chimiques. Il est probablement moins utile dans des domaines difficiles à simuler, comme apprendre à conduire une voiture. DeepMind a déclaré en , avoir déjà commencé à travailler sur le repliement des protéines au travers d'une nouvelle version d'AlphaGo, et a annoncé la publication prochaine de nouveaux résultats.
Oren Etzioni de l'Institut Allen pour l'Intelligence Artificielle a qualifié AlphaGo Zero de « résultat technique très impressionnant à la fois [sur] leur capacité à l'avoir fait—et leur capacité à instruire le système en 40 jours, sur quatre TPUs ». The Guardian a parlé d'une « percée majeure pour l'intelligence artificielle », citant Eleni Vasilaki de l'Université de Sheffield et Tom Mitchell de l'Université de Carnegie Mellon, qui ont respectivement salué un exploit et « un accomplissement technique remarquable ». Mark Pesce de l'Université de Sydney a décrit AlphaGo Zero comme « une grande avancée technologique nous propulsant en "territoire inconnu" ».
Gary Marcus, un psychologue à l'Université de New York, a mis en garde sur le fait que, pour ce que nous en savons, AlphaGo peut contenir des « connaissances implicites issues des programmeurs sur la façon de construire des machines pour jouer à des jeux tels que le go » et devra être testé dans d'autres domaines avant d'être sûr que son architecture de base soit efficace à autre chose que ce jeu. DeepMind se défend en assurant que « cette approche est généralisable à un grand nombre de domaines ».
Selon le joueur de go professionnel sud-coréen Lee Sedol, « La version précédente d'AlphaGo n'était pas parfaite, et je crois que c'est pourquoi AlphaGo Zero a été créé ». Il a ajouté qu'il faudra attendre de voir le développement mais qu'il aurait un impact sur les jeunes joueurs de go. Pour Mok Jin-seok, qui dirige l'équipe nationale Sud-coréenne, les joueurs de go dans le monde ont déjà commencé à imiter les styles de jeu des versions précédentes d'AlphaGo pour en tirer de nouvelles idées, et il espère que de nouvelles formes sortiront d'AlphaGo Zero. Mok Jin-seok considère qu'AlphaGo Zero joue plus comme un humain que ses prédécesseurs.
Le joueur professionnel chinois Ke Jie considère les capacités d'auto-apprentissage du nouveau programme comme supérieures, et rendant la présence humaine redondante.
Versions | Matériel utilisé[8] | Elo | Matchs |
---|---|---|---|
AlphaGo Fan | 176 GPU, distribué | 3 144 | 5:0 contre Fan Hui |
AlphaGo Lee | 48 TPU, distribué | 3 739 | 4:1 contre Lee Sedol |
AlphaGo Master | 4 TPU, sur une seule machine | 4 858 | 60:0 contre des joueurs professionnels; au
'Future of Go summit' |
AlphaGo Zero (40 jours) | 4 TPU, sur une seule machine | 5 185 | 100:0 contre AlphaGo Lee
89:11 contre AlphaGo Master |
AlphaZero (34 heures) | 4 TPU, sur une seule machine | ~5 500 (est.) | 60:40 contre AlphaGo Zero |
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.