Loading AI tools
由谷歌DeepMind開發,專門用來下圍棋的計算機程序 来自维基百科,自由的百科全书
AlphaGo(「Go」為日文「碁」字發音轉寫,是圍棋的西方名稱),直譯為阿爾法圍棋,在英語不流通的華語社會亦被音譯為阿爾法狗[1][2]、阿法狗[3]、阿發狗[4][5]等,是於2014年開始由英國倫敦Google DeepMind開發的人工智慧圍棋軟體。2017年,關於AlphaGo的電影紀錄片《AlphaGo世紀對決》正式上映[6]。
首次發布 | 2014年 |
---|---|
目前版本 |
|
網站 | deepmind |
專業術語上來說,AlphaGo的做法是使用了蒙地卡羅樹搜尋與兩個深度神經網路相結合的方法,一個是以藉助估值網路(value network)來評估大量的選點,一個是藉助走棋網路(policy network)來選擇落子,並使用強化學習進一步改善它。在這種設計下,電腦可以結合樹狀圖的長遠推斷,又可像人類的大腦一樣自發學習進行直覺訓練,以提高下棋實力。[7][8]
一般認為,電腦要在圍棋中取勝比在西洋棋等遊戲中取勝要困難得多,因為圍棋的下棋點極多,分支因子遠多於其他遊戲,而且每次落子對情勢的好壞飄忽不定, 諸如暴力搜尋法、Alpha-beta剪枝、啟發式搜尋的傳統人工智慧方法在圍棋中很難奏效。[9][10]在1997年IBM的電腦「深藍」擊敗俄籍世界西洋棋冠軍加里·卡斯帕羅夫之後,經過18年的發展,棋力最高的人工智慧圍棋程式才大約達到業餘5段圍棋棋士的水準,[11]且在不讓子的情況下,仍無法擊敗職業棋士。[9][12][13]2012年,在4台PC上執行的Zen程式在讓5子和讓4子的情況下兩次擊敗日籍九段棋士武宮正樹[14]。2013年,Crazy Stone在讓4子的情況下擊敗日籍九段棋士石田芳夫[15],這樣偶爾出現的戰果就已經是難得的結果了。
AlphaGo的研究計劃於2014年啟動,此後和之前的圍棋程式相比表現出顯著提升。在和Crazy Stone和Zen等其他圍棋程式的500局比賽中[16],單機版AlphaGo(執行於一台電腦上)僅輸一局[17]。而在其後的對局中,分散式版AlphaGo(以分散式運算執行於多台電腦上)在500局比賽中全部獲勝,且對抗運行在單機上的AlphaGo約有77%的勝率。2015年10月的分散式運算版本AlphaGo使用了1,202塊CPU及176塊GPU。[11]
AlphaGo在沒有人類對手後,AlphaGo之父傑米斯·哈薩比斯宣布AlphaGo退役。而從業餘棋士的水平到世界第一,AlphaGo的棋力取得這樣的進步,僅僅花了二年左右。
最終版本AlphaZero擁有更加強大的學習能力,可自我學習,在21天達到勝過中國頂尖棋士柯潔的Alpha Go Master的水平。
2014年起,AlphaGo以英國棋友deepmind的名義開始在弈城圍棋網上對弈[24]。deepmind在2014年4月到2015年9月長達1年半的時間裡,維持在7D到8D之間,總共下了300多盤棋。2015年9月16日首次升上9D,之後在AlphaGo與樊麾對弈前後的三個月內未進行網路對弈。2015年12月到2016年2月,deepmind一共下了136盤,基本在9D水平。其中和職業棋士的多次對局互有勝負。
黃士傑在AlphaGo與李世乭九段比賽前曾否認deepmind是AlphaGo的測試帳號,但是在AlphaGo與李世乭比賽之後,DeepMind創始人哈薩比斯承認AlphaGo曾經使用deepmind帳號進行過測試[25]。
2016年12月16日,在AlphaGo以Master身分登入弈城圍棋網之前,黃士傑要求刪除deepmind帳號。現在deepmind的戰績和棋譜已經無法查閱[26]。
2015年10月,分散式版AlphaGo分先以5:0擊敗了歐洲圍棋冠軍華裔法籍職業棋士樊麾二段[12][27][28] 。這是電腦圍棋程式第一次在十九路棋盤且分先的情況下擊敗職業圍棋棋士[29]。新聞發布被推遲到2016年1月27日,和描述演算法的論文一起發布,而論文發表在《自然》上。[11][12]
2016年3月,AlphaGo挑戰世界冠軍韓國職業棋士李世乭(이세돌)九段。AlphaGo使用谷歌位於美國的雲端運算伺服器,並通過光纜網路連接到韓國。[30]比賽的地點為韓國首爾四季酒店;賽制為五番棋,分別於2016年3月9日、10日、12日、13日和15日進行;規則為中國圍棋規則,黑棋貼3又3/4子;用時為每方2小時,3次1分鐘讀秒。[31][32] DeepMind團隊在YouTube上全球直播並由美籍職業棋士邁克·雷蒙(Michael Redmond)九段擔任英語解說,而中國大陸很多影片網站也採用YouTube的直播訊號進行直播,並加上自己的解說。[33]DeepMind團隊成員台灣業餘6段圍棋棋士黃士傑博士代表AlphaGo在棋盤上落子[30]。
比賽獲勝者將獲得100萬美元的獎金。如果AlphaGo獲勝,獎金將捐贈給圍棋組織和慈善機構,包括聯合國兒童基金會[34]。李世乭有15萬美元的出場費,且每贏一盤棋會再得2萬美元的獎金。[35]
2016年3月9日、10日和12日的三局對戰均為AlphaGo獲勝,而13日的對戰則為李世乭獲勝,15日的最終局則又是AlphaGo獲勝。因此對弈結果為AlphaGo 4:1戰勝了李世乭。這次比賽在網路上引發了人們對此次比賽和人工智慧的廣泛討論。
2016年11月7日,樊麾在微博上表示AlphaGo的實力大增,將在2017年初進行更多比賽[36]。DeepMind創辦人傑米斯·哈薩比斯隨後證實此訊息[37]。然而並未公布細節。
2016年12月29日晚上七點起,中國的弈城圍棋網出現疑似人工智慧圍棋軟體的圍棋高手,帳號名為「Magister」(中國大陸客戶端顯示為「Magist」),後又改名為「Master」。2017年1月1日晚上十一點Master轉戰至騰訊旗下的野狐圍棋網。Master以其空前的實力轟動了圍棋界。[38][39]它以每天十盤的速度在弈城、野狐等網路圍棋對戰平台挑戰中韓日台的頂尖高手,到2017年1月4日公測結束為止60戰全勝,其中弈城30戰野狐30戰,戰勝了柯潔、朴廷桓、井山裕太、柁嘉熹、羋昱廷、時越、陳耀燁、李欽誠、古力、常昊、唐韋星、范廷鈺、周睿羊、江維傑、黨毅飛、周俊勳、金志錫、姜東潤、朴永訓、元晟溱等世界冠軍棋士,連笑、檀嘯、孟泰齡、黃雲嵩、楊鼎新、辜梓豪、申真諝、趙漢乘、安成浚等中國或韓國國內冠軍或者世界亞軍棋士,以及世界女子第一人於之瑩。期間古力曾懸賞人民幣10萬元給第1位戰勝Master者。
Master所進行的60戰基本都是3次20秒或30秒讀秒的快棋,僅在與聶衛平交戰時考慮到聶老年紀大而延長為1分鐘,並且賽後還以繁體中文打上「謝謝聶老師」5字。該帳號於59連勝後稱「我是 AlphaGo的黃博士」,表明Master就是AlphaGo,代為落子的是AlphaGo團隊成員來自台灣的黃士傑博士[40];DeepMind創始人之一傑米斯·哈薩比斯於比賽結束後在其推特上表示「我們很期待在今後(2017年)與圍棋組織和專家合作,在官方比賽中下幾盤慢棋」[41][42],黃士傑與樊麾也分別在Facebook與微博上發表官方中文譯文,表示對各國頂尖棋士參與AlphaGo的網路公測的感謝[43]。2017年1月5日晚,中國中央電視台《新聞聯播》以「人工智慧『阿爾法狗』橫掃圍棋高手」為題報道了最近火爆的Master網路快棋60連勝人類高手的事件,新聞還提到,「這次事件為接下來的人機對決做出了很好的預熱」[44]。
因為人類棋士在慢棋中有更久的思考時間,所以雖然AlphaGo在網路快棋中大獲全勝,但仍不能斷言其在官方慢棋比賽中是否也會有如此出色的表現[42]。不過職業棋士們對AlphaGo不同於人類的獨特棋風以及它高超的棋力印象深刻[45],柯潔在其微博中表示「感謝Alphago最新版給我們棋界帶來的震撼」,並「略有遺憾」地稱「若不是住院,我將用上那準備了一個星期的最後一招」[46]。
2016年6月4日,在第37屆世界業餘圍棋錦標賽新聞發布會上,國際圍棋聯盟事務總長楊俊安透露今年內AlphaGo或將挑戰中國職業棋士柯潔九段[47]。不過DeepMind創辦人傑米斯·哈薩比斯表示目前還沒有確定AlphaGo的下一步計劃,一旦有明確的安排,會有官方聲明[48]。
2016年12月8日,第21屆三星車險盃世界圍棋大師賽決賽過後,柯潔九段表示:「目前棋士之間的比賽眾多,我放棄了與DeepZenGo的對局。我覺得,我現在的狀態還不能打敗『阿爾法狗』(AlphaGo),今後需要更加努力。」[49]
2017年4月10日,中國圍棋協會、Google和浙江省體育局聯合在中國棋院召開新聞發布會,宣布以柯潔為首的中國棋士將和AlphaGo在5月23至27日的中國烏鎮圍棋峰會上對弈。此次對弈分為三場比賽,首先在5月23、25和27日這三天,柯潔將與AlphaGo下三番棋,用時為每方3小時,5次1分鐘讀秒。Google DeepMind為本次柯潔與AlphaGo的三局比賽提供了150萬美元的勝者獎金,同時柯潔有30萬美元的出場費。[50] 此外在5月26日,時越、羋昱廷、唐韋星、陳耀燁和周睿羊5人將進行團隊賽,他們將聯合與AlphaGo對弈,用時為每方2小時30分鐘,3次1分鐘讀秒。同日,古力、連笑還將和AlphaGo合作進行人機配對賽,比賽將以棋士與AlphaGo合作的形式進行,用時為每方1小時,1次1分鐘讀秒。[51][52]最終,AlphaGo以3:0戰勝柯潔,並被中國圍棋協會授予職業圍棋九段稱號[53],不過聶衛平九段稱它的水平「至少20段」[54]。在結束與柯潔的比賽後,Deepmind宣布AlphaGo將「退役」,不再參加任何圍棋比賽,但將公開AlphaGo自己與自己互弈的棋譜;而在未來Deepmind將會把AlphaGo的技術運用到醫療等更廣泛的領域。[55]
AlphaGo的團隊於2017年10月19日在《自然》雜誌上發表了一篇文章,介紹了AlphaGo Zero,這是一個沒有用到人類資料的版本,比以前任何擊敗人類的版本都要強大。[56] 通過跟自己對戰,AlphaGo Zero經過3天的學習,以100:0的成績超越了AlphaGo Lee的實力,21天後達到了AlphaGo Master的水平,並在40天內超過了所有之前的版本。[57]
2015年10月前後的測試中,AlphaGo多次使用不同數目的CPU和GPU,以單機或分散式模式執行。每一步棋有兩秒的思考時間。最終Elo等級分如下表:[11]
組態 | 搜尋執行緒數 | CPU核心數 | GPU數 | Elo等級分的理論峰值 |
---|---|---|---|---|
單機 | 40 | 48 | 1 | 2,151 |
2 | 2,738 | |||
4 | 2,850 | |||
8 | 2,890 | |||
分布式 | 12 | 428 | 64 | 2,937 |
24 | 764 | 112 | 3,079 | |
40 | 1,202 | 176 | 3,140 | |
64 | 1,920 | 280 | 3,168 |
然而AlphaGo的棋力不斷且顯著地增長。因此上表並不能代表AlphaGo其他版本的棋力。
而在AlphaGo Zero發布之後,Deepmind表示新的演算法令新版的AlphaGo比舊版的耗能量大幅下降10000至40000TDP,效能大幅提升。[58]
在2016年1月27日,Research at Google發布了有關新版AlphaGo跟其他圍棋軟體,以及樊麾二段的對比如下[59]:
比對對象 | Elo等級分 | 相對水平 | ||
---|---|---|---|---|
理論峰值 | 平均 | 上下區間 | ||
AlphaGo分散式 | 3,275 | 3,250 | 50 | 職業五段 |
AlphaGo | 2,787 | 2,775 | 25 | 職業二段 |
樊麾二段 | 3,250 | 2,750 | 1,000 | 職業二段 |
石子旋風(讓四子) | 2,525 | 2,500 | 50 | 約業餘9段 |
石子旋風 | 1,965 | 1,940 | 50 | 業餘6段 |
Zen(讓四子) | 2,300 | 2,250 | 100 | 約業餘9段 |
Zen | 1,925 | 1,900 | 50 | 比業餘6段低 |
Pachi(讓四子) | 1787 | 1,750 | 75 | 業餘5段 |
Pachi | 1,350 | 1,345 | 10 | 比業餘3段低 |
Fuego | 1,050 | 1,045 | 10 | 比業餘1段高 |
GnuGo | 450 | 450 | 0 | 比入門5級高 |
在2017年5月24日,DeepMind團隊證實了在烏鎮圍棋峰會上,所使用的AlphaGo版本是Master[60],並公布了AlphaGo曾經公開對弈過的版本以及和其他圍棋軟體比較的圖表。其中,新版的AlphaGo Master能讓AlphaGo Lee(跟李世乭對戰的版本)三子[60]。兩個版本的AlphaGo自我生成的Elo等級分分別在4750和3750分附近[61],與柯潔九段在5月23日的3620分(非官方排名系統所統計的)[62]相差約130到1130分之多。然而,職業棋士樊麾二段替AlphaGo團隊的首席研究員大衛·席爾瓦澄清:「當AlphaGo與從未對弈過的人類棋士對局時,這樣的優勢就不復存在了,尤其是柯潔這樣的圍棋大師,他可能幫助我們發現AlphaGo未曾展露的新弱點」。[63]
版本 | 使用規則 | 硬體 | Elo等級分的理論峰值 | 戰績 |
---|---|---|---|---|
AlphaGo樊 (v13[65]) | 中國規則 | 176個GPU[57],分散式 | 3,144[56] | 5比0戰勝樊麾 |
AlphaGo李 (v18[65]) | 48個TPU[57],分散式 | 3,739[56] | 4比1戰勝李世乭 | |
AlphaGo Master | 4個TPU v2[57],單機 | 4,858[56] | 網棋60比0戰勝職業棋士; 3比0戰勝柯潔;1比0戰勝人類團隊 | |
AlphaGo Zero | 川普-泰勒規則 | 4個TPU v2[57],單機 | 5185[56] | 100:0 戰勝AlphaGo李; 與AlphaGo Master 對戰勝率達90% |
AlphaZero | 4個TPU v2,單機 | N/A | 60:40 戰勝AlphaGo Zero(3天版本) |
AlphaGo使用蒙地卡羅樹搜尋(Monte Carlo tree search),藉助估值網路(value network)與走棋網路(policy network)這兩種深度神經網路,通過估值網路來評估大量選點,並通過走棋網路選擇落點[11][9]。AlphaGo最初通過模仿人類玩家,嘗試匹配職業棋士的過往棋局,其資料庫中約含3000萬步棋著。[27]後來它達到了一定的熟練程度,它開始和自己對弈大量棋局,使用強化學習進一步改善它[9]。圍棋無法僅通過尋找最佳棋步來解決;[66]遊戲一盤平均約有150步,每一步平均約有200種可選的下法,[10]這意味著有太多需要解決的可能性[66]。
圍棋職業九段棋士金明完稱AlphaGo在與樊麾的對戰中,表現得「像人類一樣」。[67]棋局裁判托比·曼寧則認為AlphaGo的棋風「保守」。[68]
而李世乭在中國烏鎮圍棋峰會後表示,AlphaGo的發揮非常穩定,表現完美,要想找到戰勝它的機會不能過於穩妥,「必須越亂越好,難點越多越好」。[69]另外,柯潔在賽後復盤表示,AlphaGo能夠非常有效率地利用場上的棋子,所走的棋子都與場上的棋子有連貫及配合,並對棋子的厚薄有獨到的理解,能把一些人類認為厚的棋子予以打擊和殲滅。[1](頁面存檔備份,存於網際網路檔案館)
AlphaGo被譽為人工智慧研究的一項標誌性進展,在此之前,圍棋一直是機器學習領域的難題,甚至被認為是當代技術力所不及的範疇。[70][71]樊麾戰的棋局裁判托比·曼寧和國際圍棋聯盟的秘書長李夏辰都認為將來圍棋棋士會藉助電腦來提升棋藝,從錯誤中學習。[72]
台灣大學電機系教授于天立認為,Google能夠成功結合深度神經網路、加強式學習和蒙地卡羅樹狀搜尋三種演算法,其成果值得喝采。他認為這種技術應該適用於一般連續性決策問題。因為AlphaGo可以在眾多可行的決策中,適當分配運算資源來探索此一決策所帶來的好處及壞處,並且可從探索中回饋修正錯誤。不過于也提到,即使AlphaGo所使用的學習模型比較具有一般性,它離真正完全通用的學習模型仍有一段距離。[73]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.