一個算法通吃三大棋類
2017年末,AlphaZero誕生——一個可以自學(xué)國際象棋,將棋(日本象棋)和圍棋的獨立系統(tǒng)。而它也在比賽中擊敗了三種游戲各自的世界冠軍程序。來自國際象棋界的看法認(rèn)為,他們在AlphaZero的棋藝中看到了一種突破性的,變化多端的 “非傳統(tǒng)”游戲風(fēng)格,這不同于之前的任何國際象棋程序。
本文是對AlphaZero的全面評估,該評估發(fā)表在科學(xué)(Science)雜志上確認(rèn)并更新了一些初步成果。評估描述了AlphaZero的訓(xùn)練方法:盡管AlphaZero是從隨機(jī)游戲中開始訓(xùn)練,沒有內(nèi)置的專業(yè)知識,只知道游戲的基本規(guī)則,它卻可以快速學(xué)習(xí)每種游戲,直到成為最強(qiáng)玩家。
前世界國際象棋冠軍Garry Kasparov說道:“我無法掩飾自己的滿足感,它的棋法變化多端,跟我很像!”
這種從零開始學(xué)習(xí)游戲的能力,完全不受人類游戲規(guī)范的約束,產(chǎn)生了一種獨特的,非正統(tǒng)的,極具創(chuàng)造力和變化的游戲風(fēng)格。國際象棋大師Matthew Sadler和女子國際大師Natasha Regan在他們即將出版的書籍Game Changer(New in Chess,2019年1月)中分析了上千次的AlphaZero國際象棋比賽,他們認(rèn)為AlphaZero的風(fēng)格不同于任何傳統(tǒng)的國際象棋。Matthew 說:“這就像發(fā)現(xiàn)了過去一些偉大棋手的秘籍一樣”。
傳統(tǒng)的國際象棋程序——包括世界計算機(jī)國際象棋冠軍Stockfish和IBM突破性的“深藍(lán)”依賴于數(shù)千個由高手玩家制作的規(guī)則和啟發(fā)式方法,這些方法試圖考慮到每盤棋局中所有可能發(fā)生的情況。將棋游戲的程序也是針對于它自身專用的,并且使用了與國際象棋程序類似的搜索引擎和算法。
而AlphaZero則采用了一種完全不同的方法,用深度神經(jīng)網(wǎng)絡(luò)和通用算法取代了這些人工制定的規(guī)則,除了游戲的基本規(guī)則之外,AlphaZero對其它一無所知。
為了學(xué)習(xí)一種游戲,未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)通過強(qiáng)化學(xué)習(xí))的反復(fù)試錯過程來進(jìn)行數(shù)百萬局的自我博弈。起初,它完全隨機(jī)地走棋,但隨著時間的推移,系統(tǒng)不斷從輸贏中學(xué)習(xí)經(jīng)驗,從而調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),使其在之后的棋局中選擇更有利的走法。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時間取決于游戲的類型和復(fù)雜程度,國際象棋大約需要9個小時,將棋大約需要12個小時,圍棋則大約需要13天。
歷史上唯一一位擁有七大將棋比賽冠軍的九段職業(yè)棋手Yoshiharu Habu說道,“它的一些舉動,例如將王移動到棋盤的中心,違反了將棋理論,并且從人的角度來看,它似乎使自己處于危險的位置。但令人難以置信的是,它仍然能掌控著棋盤。其獨特的棋法向我們展示了這些游戲中還存在著其它的可能性!
訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)被用于一種搜索算法——蒙特卡羅樹搜索(Monte-Carlo Tree Search/MCTS),以選擇游戲中最有利的走法。對于每步棋,AlphaZero僅搜索傳統(tǒng)國際象棋程序中的一小部分走法。例如,在國際象棋中,AlphaZero每秒僅搜索6萬種走法,而Stockfish則要搜索大約6千萬種走法。
我們對經(jīng)過全面訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)進(jìn)行測試,使其與國際象棋中最強(qiáng)大的程序Stockfish、將棋中最強(qiáng)大的Elmo,以及圍棋中最強(qiáng)大的AlphaGo Zero分別進(jìn)行了比賽。
每個程序都在其最初設(shè)計的硬件上運(yùn)行。Stockfish和Elmo使用44個CPU核心(正如在TCEC世界錦標(biāo)賽一樣),而AlphaZero和AlphaGo Zero使用一臺機(jī)器,配備4個第一代TPUs和44個CPU核心。第一代TPU的推理速度與NVIDIA Titan V GPU等商用硬件大致相似,但其實兩者的架構(gòu)不具有直接的可比性。
所有比賽的時間均控制在每場3小時之內(nèi),每步棋限時15秒。
在每場評估中,AlphaZero都令人信服地?fù)魯×藢κ郑?/p>
在國際象棋中,AlphaZero擊敗了2016 年TCEC(第9季)比賽的世界冠軍Stockfish,在1000場比賽中獲勝155場,僅輸?shù)袅?場。為了驗證AlphaZero的魯棒性,還測試了一系列人類選手常見的開局。在每個開局中,AlphaZero都擊敗了Stockfish。我們嘗試了2016年TCEC世界錦標(biāo)賽中采用的開局,還進(jìn)行了和最新版Stockfish及一個變種版Stockfish(使用了強(qiáng)大開局)的一系列附加賽。在所有比賽中,AlphaZero都取得了勝利。
在將棋中,AlphaZero擊敗了2017年CSA世界冠軍版Elmo,贏得了91.2%的比賽。
在圍棋中,AlphaZero擊敗了 AlphaGo Zero,贏得了61%的比賽。
讓玩家覺得最為著迷的正是AlphaZero獨特的游戲風(fēng)格。例如,在國際象棋中,AlphaZero在其自我訓(xùn)練中獨立發(fā)現(xiàn)并演繹了人類常見的思維模式,如開局(openings),保王(king safety)和兵陣(pawn structure)。但是,由于它可以自學(xué)所以并不受傳統(tǒng)思維的影響,還開發(fā)了自己的直覺和策略,增加了一系列令人興奮的新穎想法,擴(kuò)展了幾個世紀(jì)以來對國際象棋戰(zhàn)略的思考。
前世界國際象棋冠軍Garry Kasparov說道,“一個多世紀(jì)以來,國際象棋一直被用作人類和機(jī)器認(rèn)知的羅塞塔石碑。AlphaZero的非凡成就,更新了古老的棋盤游戲和尖端的科學(xué)之間的聯(lián)系!
Matthew Sadler說道,玩家首先注意到的就是AlphaZero的風(fēng)格,也就是它以其獨到的力量圍攻對手王棋的方式。支撐著這些的是AlphaZero百變的游戲方式,這些方式最大限度地提高了它自身的活躍性和移動性,同時最大限度地減少了對手的活躍性和移動性。與直覺相反,AlphaZero似乎對“子力”(material)的重視程度較低,在現(xiàn)代象棋中,每一個棋子都具有一個值,如果一個玩家在棋盤上的棋子值高于對手,那么他們就具有了子力優(yōu)勢。相反,AlphaZero在游戲早期就犧牲了子力,反而在后期中逐漸補(bǔ)償收益。
掌握棋盤游戲
Matthew 說道,“令人印象深刻的是,AlphaZero能夠在各種各樣的位置和開局中顯示出自己獨道的棋法,”他還觀察到,AlphaZero剛開始就以非常審慎的方式下棋,這一點和人類的掌握全局非常相似!皞鹘y(tǒng)程序非常強(qiáng)大,幾乎不會出現(xiàn)明顯的錯誤,但在面對沒有具體可計算的位置時會亂了陣腳。面對這些問題時需要“感覺”,“洞察”或“直覺”來解決,而AlphaZero自成一體恰好具備了這些特質(zhì)。
前世界國際象棋冠軍Garry Kasparov說道,“這里面蘊(yùn)含的邏輯知識已經(jīng)遠(yuǎn)遠(yuǎn)超出了我最心愛和欣賞的棋局……這些自學(xué)成才的機(jī)器不僅下得一手好棋,而且還能產(chǎn)生很多值得我們學(xué)習(xí)的新知識!
在最近 Magnus Carlsen和 Fabiano Caruana的世界國際象棋冠軍賽( World Chess Championship )中,這種在其他傳統(tǒng)的國際象棋程序中看不到獨特的提供見解的能力,已經(jīng)被用來為國際象棋迷們提供新見解和評論, Game Changer中還會進(jìn)一步探討。 Natasha Regan 說道,“AlphaZero對于棋局的分析與其他頂級國際象棋程序甚至頂級大師的對棋局分析的不同之處,真是令人著迷,AlphaZero可以成為整個象棋界強(qiáng)大的教學(xué)工具。”
AlphaZero的教學(xué)能力在2016年AlphaGo與圍棋界傳奇冠軍李世乭(Lee Sedol)的比賽中就可以看出。在比賽期間,AlphaGo演繹了許多極具創(chuàng)造性的棋法,包括在第二場比賽中的第37步棋,推翻了數(shù)百年的思維定式。AlphaZero的很多走棋方式都已經(jīng)被很多玩家(包括李世乭在內(nèi))研究過,李世乭談?wù)摰?7步棋時說道:“我原本認(rèn)為AlphaGo是基于概率計算的,它只是一臺機(jī)器,但當(dāng)我看到這一步棋時,我改變了主意,AlphaGo確實很有創(chuàng)造力。”
和圍棋一樣, AlphaZero在國際象棋中的創(chuàng)造力令人振奮,自從計算機(jī)時代開始以來,人工智能一直都面臨著巨大的挑戰(zhàn),早期的先驅(qū)巴貝奇、圖靈、香農(nóng)、馮·諾依曼都曾試圖設(shè)計國際象棋程序。但AlphaZero的意義不僅僅是在國際象棋,將棋或圍棋中。為了創(chuàng)建能夠解決各種現(xiàn)實問題的智能系統(tǒng),我們需要它們具備能夠總結(jié)新情況的靈活性。雖然在這一目標(biāo)上我們已經(jīng)取得了一些進(jìn)展,但它仍然是人工智能研究中的一項重大挑戰(zhàn),因為系統(tǒng)往往能夠以非常高的完成度掌握一些特定的技能,但在面對略微不同的任務(wù)時就會失敗。
AlphaZero能夠掌握三種不同的復(fù)雜游戲,并且有潛力完成任何完備信息博弈,所以AlphaZero是克服這一問題的重要一步。它表明單個算法可以在一系列設(shè)定中學(xué)習(xí)新知識。盡管還處于早期階段,但是AlphaZero的獨到見解和其在AlphaFold等其他項目中展示出的優(yōu)異結(jié)果,對創(chuàng)建通用學(xué)習(xí)系統(tǒng)(our mission)充滿信心,這有助于找到一些新的解決方案來處理更多更重要且復(fù)雜的科學(xué)問題。
來源:網(wǎng)絡(luò)
以上是關(guān)于棋類的相關(guān)信息,以供大家查看了解。想要了解更多棋類信息,第一時間了解棋類相關(guān)資訊,敬請關(guān)注唯學(xué)網(wǎng)棋類欄目,如有任何疑問也可在線留言,小編會為您在第一時間解答!