10月19日,據(jù)外媒報(bào)道,由谷歌子公司DeepMind開發(fā)的針對Go的人工智能程序AlphaGo迎來了AlphaGo Zero的新版本。
DeepMind詳細(xì)解釋了AlphaGo和Zero的區(qū)別。比如識別棋盤面時(shí),直接識別黑白棋子,而不是對圖像進(jìn)行分類;它只用一個(gè)人工神經(jīng)網(wǎng)絡(luò),把前面兩個(gè)結(jié)合成一個(gè)。但更大的創(chuàng)新是AlphaGo Zero采用了一種新的算法“強(qiáng)化學(xué)習(xí)”。每次訓(xùn)練后,AlphaGo Zero可以根據(jù)訓(xùn)練結(jié)果進(jìn)一步優(yōu)化其算法。
最初的AlphaGo需要和人類專家玩上千種游戲才能從中獲取數(shù)據(jù),而AlphaGo Zero則截然不同。雖然也是DeepMind開發(fā)的,但是從零開始,只面對一個(gè)空白色棋盤和游戲規(guī)則,只是通過自學(xué)提高了游戲技能。
▲ AlphaGo Zero自我游戲訓(xùn)練流程
經(jīng)過三天的訓(xùn)練,AlphaGo Zero已經(jīng)能夠擊敗AlphaGo Lee,這是去年擊敗韓國頂尖選手李世石的系統(tǒng),比分高達(dá)100: 0。
經(jīng)過40天的訓(xùn)練,AlphaGo Zero已經(jīng)打出了2900萬左右的自我游戲,以89: 11的比分擊敗了AlphaGo Master(今年早些時(shí)候擊敗世界冠軍柯潔的系統(tǒng))。
此外,AlphaGo Zero比前幾代產(chǎn)品更節(jié)能。AlphaGo Lee需要用幾臺(tái)機(jī)器和48臺(tái)谷歌TPU機(jī)器來學(xué)習(xí)加速芯片。上一代AlphaGo Fan用的是176 GPU芯片。AlphaGo Zero只需要使用一臺(tái)帶有四個(gè)TPU的機(jī)器。
對于alphago Zero的推出,柯潔在微博上寫道:“一個(gè)純粹的、自學(xué)的alphago是最強(qiáng)的...為了AlphaGo的自我提升...人類太多余了。」
1.《alphago柯潔 打敗柯潔的 AlphaGo,被弟弟 AlphaGo Zero 打敗了》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《alphago柯潔 打敗柯潔的 AlphaGo,被弟弟 AlphaGo Zero 打敗了》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí),對其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請保留本站內(nèi)容來源地址,http://f99ss.com/fangchan/817339.html