MuZero

Informations
Développé par	Google DeepMind
Première version	2019
Type	Programme informatique

Informations

2019

Type

Historique

Résumé

Contexte

« MuZero est vraiment en train de découvrir par lui-même comment construire un modèle et le comprendre en partant seulement de principes généraux. »

— David Silver, DeepMind, Wired^[5]

Le 19 novembre 2019, l'équipe de DeepMind introduisit MuZero dans une prépublication décrivant ses méthodes et ses résultats.

Comparaison avec AlphaZero

Comparaison avec R2D2

Le meilleur programme spécialisé pour l'ensemble des 57 jeux vidéos d'Atari servant de référence (Arcade Learning environment, souvent référencé comme Atari57) était R2D2^{[N 1]} (Recurrent Replay Distributed DQN, soit Jeu répété par Deep Q-learning distribué), un autre programme développé par DeepMind^[7].

MuZero améliore les performances moyennes et médianes de R2D2 sur l'ensemble des 57 jeux, mais n'est pas meilleur que lui dans tous, et reste bien en dessous des performances des meilleurs experts humains dans 6 de ces jeux^{[N 2]}.

Entrainement et résultats

Résumé

Contexte

MuZero a utilisé 16 TPU de troisième génération pour l'entraînement et 1000 TPU pour jouer contre lui-même pour les jeux de société, avec 800 simulations par étape. ainsi que 8 TPU pour l'entraînement et 32 TPU pour l'auto-exécution pour les jeux d'Atari, avec 50 simulations par étape.

AlphaZero a utilisé 64 TPU de première génération pour l'entraînement et 5 000 TPU de deuxième génération pour le selfplay. La conception des TPU s'étant améliorée (les puces de troisième génération sont deux fois plus puissantes individuellement que celles de deuxième génération, avec des progrès supplémentaires en matière de bande passante et de mise en réseau entre les puces d'un même module), ces configurations d'entraînement sont comparables.

R2D2 a été entraîné pendant 5 jours à travers 2 millions d'étapes d'entraînement.

Performances initiales

MuZero a atteint des performances comparables à AlphaZero aux échecs et au shōgi après environ un million d'étapes d'entraînement, et au go après cinq cent mille étapes. De même, il a dépassé les performances moyennes et médianes de R2D2 après environ un million d'étapes, bien qu'il ait gardé des performances médiocres sur 6 jeux de la suite.

Réactions et travaux dérivés

MuZero est jugé comme une avancée significative sur AlphaZero^[9], et comme une approche nouvelle et généralisable des techniques d'apprentissage^[10]^,^[11] ; ce travail a été également vu comme une amélioration des méthodes de construction de systèmes complexes à partir de composants simples, et donc lié à la conception de logiciels en général, et non simplement à l'apprentissage automatique^[12].

DeepMind n'a fourni qu'une description de MuZero en pseudo-code, mais Werner Duvaud l'a utilisée pour en créer une implémentation open source^[13].

MuZero a également été utilisé comme référence pour d'autres travaux, par exemple pour créer des comportements basés sur des modèles^[14].

Historique

Comparaison avec AlphaZero

Comparaison avec R2D2

Entrainement et résultats

Performances initiales

Réactions et travaux dérivés

Voir aussi

Notes et références

Liens externes

Wikiwand - on