魚陽發(fā)源于凹陷的秘史。
量子比特報(bào)告|公眾號(hào)QbitAI
如果讓AI玩《2048》這樣的游戲,會(huì)是怎么樣的畫面?
現(xiàn)在,有些人開始用強(qiáng)化學(xué)習(xí)的方法來實(shí)踐。
于是,插上DQN的翅膀,AI從零起步,自己琢磨出了《2048》的玩法:
一起手,是不是就有內(nèi)味了?
這操作,條理清晰到令人感到舒適?!?000,no;1024,yes”的強(qiáng)迫癥們不禁紛紛點(diǎn)贊,給這只AI貢獻(xiàn)了800+ reddit熱度。
用DQN玩《2048》
調(diào)教出這只會(huì)玩《2048》的AI的,是一位巴西老哥Felipe Marcelino。目前正在米納斯吉拉斯聯(lián)邦大學(xué)攻讀CS碩士。
首先,他采用OpenAI Gym構(gòu)建了自定義強(qiáng)化學(xué)習(xí)環(huán)境。
其中包括兩種2048棋盤表示方式:
- 二進(jìn)制——使用二次冪矩陣表示棋盤中的每一塊區(qū)域
- 非二進(jìn)制——原始數(shù)字矩陣
模型包含兩種類型的神經(jīng)網(wǎng)絡(luò):CNN和MLP(多層感知機(jī))。
據(jù)Felipe介紹,與MLP相比,以CNN作為特征提取器的智能體表現(xiàn)得更好。
訓(xùn)完之后,老哥測(cè)試了一下,在1000把游戲中,AI有100次達(dá)到了2048。
玩《2048》的AI們
目前,這只用DQN訓(xùn)練出的AI玩到2048就打住了。
不過,巴西老哥拋磚,又吸引了不少來獻(xiàn)玉的盆友。
比如,同樣采用強(qiáng)化學(xué)習(xí)方法,將時(shí)序差分學(xué)習(xí)和最大期望搜索相結(jié)合的2048控制器。
在10步/秒的策略下,它最高能湊出32768。
而在追求高分的路上,有一位來自日本的選手表現(xiàn)亮眼。
依靠7個(gè)卷積層的深度卷積網(wǎng)絡(luò),這只在《2048》這個(gè)游戲中最高拿到了401912分。
正如一位網(wǎng)友所說:這正是一個(gè)足夠有趣,又不太復(fù)雜的強(qiáng)化學(xué)習(xí)案例。
如果你是剛剛開始學(xué)習(xí)強(qiáng)化學(xué)習(xí),也不妨拿這個(gè)小項(xiàng)目練練手~
參考鏈接
《2048》相關(guān)開源項(xiàng)目:
相關(guān)論文:
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)
1.《2048游戲技巧專題之你玩《2048》能拿多少分?AI的最高分紀(jì)錄:401912》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請(qǐng)聯(lián)系頁腳下方聯(lián)系方式。
2.《2048游戲技巧專題之你玩《2048》能拿多少分?AI的最高分紀(jì)錄:401912》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來源地址,http://f99ss.com/yule/2150338.html