AlphaGo Zero - Wikiwand

AlphaGo Zero è una versione del programma per giocare a Go di DeepMind, AlphaGo. Il team di AlphaGo ha pubblicato un articolo sulla rivista Nature il 19 ottobre 2017, introducendo AlphaGo Zero, una versione creata senza utilizzare informazioni provenienti da partite tra giocatori umani e più potente di qualsiasi versione precedente.^[1] Giocando contro sé stesso, AlphaGo Zero ha superato la forza della versione di AlphaGo che aveva affrontato Lee Se-dol in tre giorni vincendo 100 partite a 0, ha raggiunto il livello di AlphaGo Master in 21 giorni e ha superato tutte le vecchie versioni in 40 giorni.^[2]

Addestrare un'intelligenza artificiale (IA) senza dati derivati da esperti umani ha implicazioni significative per lo sviluppo dell'IA con abilità sovrumane, perché i dati degli esperti sono "spesso costosi, inaffidabili o semplicemente non disponibili".^[3] Demis Hassabis, il cofondatore e amministratore delegato di DeepMind, ha detto che AlphaGo Zero era così potente perché "non era più vincolato dai limiti della conoscenza umana".^[4] David Silver, uno dei primi autori degli articoli di DeepMind pubblicati su Nature su AlphaGo, ha affermato che è possibile avere algoritmi IA generalizzati eliminando la necessità di imparare dagli umani.^[5]

Google ha successivamente sviluppato AlphaZero, una versione generalizzata di AlphaGo Zero che può giocare a scacchi e shōgi oltre che a Go. Nel dicembre 2017, AlphaZero ha battuto la versione di 3 giorni di AlphaGo Zero vincendo 60 partite contro 40 e con 8 ore di allenamento ha superato il punteggio Elo di AlphaGo "Lee". AlphaZero ha anche sconfitto uno dei migliori programmi di scacchi (Stockfish) e uno dei migliori Shōgi (Elmo).^[6]

Addestramento

Riepilogo

Prospettiva

La rete neurale di AlphaGo Zero è stata addestrata utilizzando TensorFlow, con 64 GPU e 19 server di parametri CPU. Solo quattro TPU sono state utilizzate per l'inferenza. La rete neurale inizialmente non sapeva nulla del Go oltre alle regole. A differenza delle versioni precedenti di AlphaGo, Zero percepiva solo le pietre sul tavoliere, oltre ad avere alcuni rari casi limite programmati dall'uomo per aiutare a riconoscere alcune posizioni insolite sul goban. L'IA è stata sottoposta a un apprendimento per rinforzo, giocando contro sé stessa fino a quando non è divenuta in grado di anticipare le proprie mosse e come quelle mosse avrebbero influenzato il risultato della partita.^[7] Nei primi tre giorni AlphaGo Zero ha giocato 4,9 milioni di partite contro sé stesso in rapida successione.^[8] Sembrava sviluppare le abilità necessarie per battere i migliori goisti umani in pochi giorni, mentre il precedente AlphaGo aveva richiesto mesi di addestramento per raggiungere lo stesso livello.^[3]

Per fare un confronto, i ricercatori hanno anche addestrato una versione di AlphaGo Zero utilizzando partite tra umani di alto livello, AlphaGo Master, e hanno scoperto che ha appreso più rapidamente, ma in realtà si è comportato peggio nel lungo periodo.^[9] DeepMind ha presentato i suoi risultati iniziali in un articolo su Nature dell'aprile 2017, che è stato poi pubblicato nell'ottobre 2017.^[1]

Costo hardware

Il costo dell'hardware per un singolo sistema AlphaGo Zero nel 2017, comprese le quattro TPU, è stato indicato in circa $ 25 milioni.^[10]

Applicazioni

Secondo Hassabis, è probabile che gli algoritmi di AlphaGo siano principalmente vantaggiosi per quegli àmbiti che richiedono una ricerca intelligente all'interno di un enorme spazio di possibilità, come il ripiegamento delle proteine o la simulazione accurata delle reazioni chimiche.^[11] Le tecniche di AlphaGo sono probabilmente meno utili in domini difficili da simulare, come imparare a guidare un'auto.^[12] DeepMind ha dichiarato nell'ottobre 2017 di aver già avviato un lavoro attivo sul tentativo di utilizzare la tecnologia AlphaGo Zero per il ripiegamento delle proteine e ha dichiarato che presto pubblicherà nuove scoperte.^[4]^[12]

Accoglienza

Riepilogo

Prospettiva

AlphaGo Zero è stato ampiamente considerato un progresso significativo, anche quando confrontato con il suo rivoluzionario predecessore, AlphaGo. Oren Etzioni dell'Allen Institute for Artificial Intelligence ha definito AlphaGo Zero "un risultato tecnico molto impressionante", "sia per la loro capacità di farlo, sia per la loro capacità di addestrare il sistema in 40 giorni, su quattro TPU".^[7] The Guardian lo ha definito un "importante passo avanti per l'intelligenza artificiale", citando Eleni Vasilaki della Sheffield University e Tom Mitchell della Carnegie Mellon University, che l'hanno definito rispettivamente un'impresa impressionante e un "eccezionale risultato ingegneristico".^[12] Mark Pesce dell'Università di Sydney ha definito AlphaGo Zero "un grande progresso tecnologico" che ci ha portato in "un territorio inesplorato".^[13]

Gary Marcus, uno psicologo della New York University, ha avvertito che, per quanto ne sappiamo, AlphaGo potrebbe contenere "la conoscenza implicita che i programmatori hanno su come costruire macchine per riprodurre problemi come il Go" e dovrà essere testato in altri domini prima di essere sicuri che la sua architettura di base sia efficace in qualcosa di più che giocare a Go. Al contrario, DeepMind è "fiducioso che questo approccio sia generalizzabile a un gran numero di domini".^[8]

In risposta alle segnalazioni, il professionista sudcoreano di Go Lee Se-dol ha dichiarato che "la versione precedente di AlphaGo non era perfetta e credo che sia per questo che è stato creato AlphaGo Zero". Sul potenziale di sviluppo di AlphaGo, Lee ha detto che dovrà aspettare e vedere, ma ha anche detto che influenzerà i giovani giocatori di Go. Mok Jin-seok, che dirige la squadra nazionale sudcoreana di Go, ha detto che il mondo di Go ha già imitato gli stili di gioco delle versioni precedenti di AlphaGo e ha creato nuove idee da loro, e spera che nuove idee vengano fuori da AlphaGo Zero. Mok ha anche aggiunto che le tendenze generali nel mondo di Go sono ora influenzate dallo stile di gioco di AlphaGo. "All'inizio era difficile da capire e mi sembrava quasi di giocare contro un alieno. Tuttavia, avendo avuto una grande esperienza, mi ci sono abituato", ha detto Mok. "Abbiamo ormai superato il punto in cui discutevamo del divario tra le capacità di AlphaGo e degli esseri umani. Ora è tra i computer". Secondo quanto riferito, Mok ha già iniziato ad analizzare lo stile di gioco di AlphaGo Zero insieme ai giocatori della squadra nazionale. "Anche se abbiamo visto solo poche partite, abbiamo avuto l'impressione che AlphaGo Zero giochi più come un essere umano rispetto ai suoi predecessori", ha detto Mok.^[14] Il professionista cinese Go, Ke Jie, ha commentato gli straordinari risultati del nuovo programma: "un AlphaGo con auto-apprendimento puro è il più forte. Gli esseri umani sembrano ridondanti di fronte al suo auto-miglioramento personale".^[15]

Confronto con i predecessori

Ulteriori informazioni Versioni, Hardware da gioco ...

Configurazione e forza^[16]
Versioni	Hardware da gioco^[17]	Punteggio Elo	Partite
AlphaGo "Fan"	176 GPU,^[2] distribuite	3144^[1]	5:0 contro Fan Hui
AlphaGo "Lee"	48 TPU, distribuite	3739	4:1 contro Lee Se-dol
AlphaGo "Master"	4 TPU, macchina singola	4858	60:0 contro giocatori professionisti; Future of Go Summit
AlphaGo Zero (40 giorni)	4 TPU, macchina singola	5185	100:0 contro AlphaGo Lee 89:11 contro AlphaGo Master
AlphaZero (34 ore)	4 TPU, macchina singola	4430 (stimato)	60:40 contro un AlphaGo Zero 3 giorni

Chiudi

AlphaZero

Il 5 dicembre 2017, il team di DeepMind ha presentato un preprint su arXiv, introducendo AlphaZero, un programma che utilizza l'approccio generalizzato di AlphaGo Zero e che ha raggiunto in 24 ore un livello di gioco sovrumano negli scacchi, nello shogi e nel Go, sconfiggendo i programmi dei campioni del mondo, Stockfish, Elmo e la versione di 3 giorni di AlphaGo Zero.

AlphaZero (AZ) è una variante più generalizzata dell'algoritmo di AlphaGo Zero (AGZ), ed è in grado di giocare shogi e scacchi e Go. Le differenze tra AZ e AGZ includono:

AZ ha regole pre-programmato per l'impostazione degli iperparametri di ricerca.
la rete neurale viene ora aggiornata continuamente:
le partite scacchi (a differenza del Go) possono finire in parità; quindi l'AZ può prendere in considerazione la possibilità di un pareggio.

È disponibile un programma open source, Leela Zero, basato sulle idee contenute negli articoli su AlphaGo. Utilizza una GPU invece delle TPU su cui fanno affidamento le recenti versioni di AlphaGo.

Note

Loading content...

Collegamenti esterni

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.