Loading AI tools
מוויקיפדיה, האנציקלופדיה החופשית
AlphaGo Zero היא גרסה מתקדמת של תוכנת AlphaGo למשחק הגו שפותחה על ידי חברת DeepMind. בשונה מגרסאות קודמות, AlphaGo Zero אומנה ללא שימוש בנתוני משחקים של בני אדם, והצליחה להגיע לרמה גבוהה יותר מכל גרסה קודמת.
מפתח | DeepMind |
---|---|
מחזור חיים | 19 באוקטובר 2017 – הווה (7 שנים) |
במאמר שפורסם בכתב העת Nature באוקטובר 2017, תיאר הצוות של DeepMind את תהליך האימון שעברה AlphaGo Zero: בשלושת הימים הראשונים היא הפסידה 100 משחקים לעצמה, ולאחר 21 יום הגיעה לרמת המשחק של AlphaGo Master. תוך 40 ימים נוספים היא עברה כל גרסה קודמת של AlphaGo.[1]
שיטת האימון העצמי הזו, ללא נתוני משחקים אנושיים, יכולה להוביל לפריצות דרך בפיתוח בינה מלאכותית עם יכולות על-אנושיות. מייסד DeepMind, דמיס הסביס, אמר שמה שהוכיחה AlphaGo Zero שהיא אינה מוגבלת עוד על ידי הידע האנושי.
בהמשך פותחה גרסה כללית יותר, AlphaZero, שמסוגלת לשחק גם שחמט ושוגי ברמה גבוהה. AlphaZero הצליחה לנצח גרסאות קודמות של AlphaGo, וכן תוכנות מובילות בשחמט ובשוגי.
היכולת לאמן בינה מלאכותית ללא נתונים אנושיים עשויה להוביל להתקדמות משמעותית בתחום.
הרשת העצבית של AlphaGo Zero אומנה באמצעות TensorFlow, עם 64 מעבדי GPU ו-19 שרתי פרמטרים של CPU. רק ארבעה TPU שימשו להסקת המסקנות.
בתחילה, הרשת העצבית לא ידעה דבר על המשחק מעבר לכללים הבסיסיים. בניגוד לגרסאות קודמות של AlphaGo, Zero קיבל את המידע הבסיסי של האבנים על הלוח, ולא היו לו כמה מקרים נדירים מתוכנתים על ידי אדם כדי לעזור לזהות עמדות יוצאות דופן של לוח Go. הבינה המלאכותית עבדה עם למידת מכונה מסוג למידת חיזוק, וכך היא שיחקה נגד עצמה ולמדה מכישלונות עד שהצליחה להבין איך המהלכים שהיא ביצעה השפיעו על תוצאות המשחק.[2] בשלושת הימים הראשונים AlphaGo Zero שיחק 4.9 מיליון משחקים מול עצמה ברצף מהיר.[3] ונראה שהוא פיתח את הכישורים הנדרשים כדי לנצח את בני האדם המובילים בתוך ימים ספורים בלבד, בעוד שה-AlphaGo המוקדם יותר לקח חודשים של אימונים כדי להגיע לאותה רמה.[4]
לשם השוואה, החוקרים הכשירו גם גרסה של AlphaGo Zero באמצעות משחקים אנושיים, AlphaGo Master, וגילו שהיא למדה מהר יותר, אך למעשה תפקדה באופן פחות טוב לטווח הארוך. DeepMind פרסמה את הממצאים הראשוניים שלה במאמר ל-Nature באוקטובר 2017.[5]
עלות החומרה עבור מערכת AlphaGo Zero יחידה בשנת 2017, כולל ארבעת ה-TPU, הוערכה בסכום של 25 מיליון דולר.[6]
לפי חסביס, האלגוריתמים של AlphaGo עשויים להועיל ביותר לתחומים הדורשים חיפוש מושכל דרך מרחב עצום של אפשרויות, כמו קיפול חלבון או הדמיה מדויקת של תגובות כימיות.[7] הטכניקות של AlphaGo כנראה פחות שימושיות בתחומים שקשה לדמות, כמו לימוד נהיגה במכונית.[8] DeepMind הצהירה באוקטובר 2017 כי היא כבר החלה בעבודה אקטיבית על ניסיון להשתמש בטכנולוגיית AlphaGo Zero לקיפול חלבון, והצהירה כי בקרוב תפרסם ממצאים חדשים.[9][10]
AlphaGo Zero נחשבה באופן נרחב כמקדמה משמעותית, גם בהשוואה לקודמו פורץ הדרך, AlphaGo. אורן עציוני ממכון אלן לבינה מלאכותית כינה את AlphaGo Zero "תוצאה טכנית מרשימה מאוד" וציין כי "גם היכולת שלהם לעשות זאת וגם היכולת שלהם לאמן את המערכת תוך 40 יום, על ארבעה TPU". ה"גרדיאן" כינה זאת "פריצת דרך גדולה לבינה מלאכותית", תוך ציטוט של אלני ואסילאקי מאוניברסיטת שפילד וטום מיטשל מאוניברסיטת קרנגי מלון, שכינו זאת הישג מרשים ו"הישג הנדסי יוצא דופן" בהתאמה. מארק פסה מאוניברסיטת סידני כינה את AlphaGo Zero "התקדמות טכנולוגית גדולה" שלוקחת אותנו ל"טריטוריה שלא התגלתה".[11]
בתגובה לדיווחים על ביצועי המערכת, אמר המאמן גו הדרום קוריאני של לי סידול, "הגרסה הקודמת של AlphaGo לא הייתה מושלמת, ואני מאמין שבגלל זה נוצרה AlphaGo Zero". לגבי פוטנציאל הפיתוח של AlphaGo, לי אמר שהוא יצטרך לחכות ולראות אבל גם אמר שזה ישפיע על שחקני גו צעירים"
גרסאות | משחק חומרה[13] | מד כושר | התאמות |
---|---|---|---|
AlphaGo fan | 176 GPUs | 3,144 | 5:0 מול פאן הואי |
AlphaGo Lee | 48 TPU | 3,739 | 4:1 מול לי סידול |
אלפאגו מאסטר | 4 TPU, מכונה בודדת | 4,858 | 60:0 מול שחקנים מקצועיים;
Future of Go Summit |
AlphaGo Zero (40 days) | 4 TPU, מכונה בודדת | 5,185 | 100:0 מול אלפאגו לי
89:11 מול אלפאגו מאסטר |
AlphaZero (34 hours) | 4 TPUs, מכונה אחת | 4,430 (הערכה) | 60:40 מול AlphaGo Zero של 3 ימים |
ב-5 בדצמבר 2017, צוות DeepMind פרסם הדפסה מקדימה ב-arXiv, והציג את AlphaZero, תוכנית המשתמשת בגישה המוכללת של AlphaGo Zero, שהשיגה תוך 24 שעות רמה על-אנושית של משחק בשחמט, שוגי ו-Go, תוך ניצחון על תוכניות אלופי העולם, Stockfish, Elmo.
AlphaZero (AZ) הוא גרסה כללית יותר של אלגוריתם AlphaGo Zero (AGZ), והוא מסוגל לשחק שוגי ושחמט כמו גם Go. ההבדלים בין AZ ל-AGZ כוללים:
ישנה תוכנת קוד פתוח, Leela Zero, המבוססת על הרעיונות מהעיתונים של AlphaGo. הוא משתמש ב-GPU במקום ב-TPU שהגרסאות האחרונות של AlphaGo מסתמכות עליהן.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.