在過去的20年里,從象棋到德州撲克,人機對戰(zhàn)背后的機器是如何進(jìn)化的?
作者|一柳一柳是鄧晶嗎
這篇文章是從頂樓的俯視圖轉(zhuǎn)載的
2017年4月6日至10日,卡內(nèi)基梅隆大學(xué)開發(fā)的人工智能天平將在海南與6名中國德州撲克選手進(jìn)行為期5天、共計45小時的比賽。
這是AlphaGo在Go領(lǐng)域殺盡各方后AI對人類的新挑戰(zhàn)。本文將為你梳理一下這20年來人機對戰(zhàn)經(jīng)歷了哪些關(guān)鍵節(jié)點,AI發(fā)生了哪些演變?
象棋人機對戰(zhàn)
關(guān)鍵詞:計算能力
1996年2月,美國費城,當(dāng)時名為“世紀(jì)大戰(zhàn)”的比賽。
棋壇的棋王卡斯帕羅夫不是挑戰(zhàn)者。
卡斯帕羅夫的對手是IBM的超級象棋電腦“深藍(lán)”,后者已經(jīng)為這場比賽做好了充分的準(zhǔn)備。
每一輪棋,一個棋手可以有35個左右不同的棋局選擇,這些選擇的推導(dǎo)結(jié)果是單線程的,從A到B到c,隨機不可控因素較小,局部輸贏不影響整體戰(zhàn)局的關(guān)系。雙方的決策可以更直接的控制整個局勢的走向。
換句話說,象棋比賽在很大程度上是棋手計算能力的較量。
為了比對手更精準(zhǔn),世界棋王卡斯帕羅夫用深藍(lán)C語言錄入了過去100年超過200萬場的優(yōu)秀選手。這臺電腦重1270公斤,有32個節(jié)點。每個節(jié)點有8個專門為下棋設(shè)計的處理器,運行速度達(dá)到每秒1億次。
1997年,電腦深藍(lán)第一次擊敗了全國大象棋王卡斯帕羅夫
然而在96年的六場比賽中,深藍(lán)最終以2:4落敗。
在第一次挑戰(zhàn)失敗后的一年里,IBM工程師將深藍(lán)的運行速度提高了一倍,達(dá)到每秒2億次。但是深藍(lán)不是電腦之王。事實上。當(dāng)時深藍(lán)在全球超級計算機中排名第259位。即便如此,深藍(lán)依然可以計算出選擇最佳策略的所有方式:新深藍(lán)通過硬計算可以預(yù)測12步,而卡斯帕羅夫只能預(yù)測10步。
1997年5月,深藍(lán)再次挑戰(zhàn)棋王卡斯帕羅夫。前五場比賽,2.5比2.5平的時候,棋王在第六盤最后一局僅僅19步就輸給了深藍(lán)。最終深藍(lán)電腦3.5:2.5獲勝(1勝2負(fù)3平),成為首個在標(biāo)準(zhǔn)比賽時限內(nèi)擊敗世界象棋冠軍的電腦系統(tǒng)。
賽后,“深藍(lán)”隊宣布了一個秘密。每場比賽結(jié)束后,球隊會根據(jù)卡斯帕羅夫的情況修改具體參數(shù)。深藍(lán)雖然不會思考,但這些任務(wù)實際上迫使它“學(xué)習(xí)”,這也是卡斯帕羅夫找不到有效方法對付深藍(lán)的主要原因。
電視智力競賽節(jié)目戰(zhàn)
關(guān)鍵詞:自然語言理解,數(shù)據(jù)庫,計算能力。
2011年,IBM的超級計算機沃森宣布參加美國綜合挑戰(zhàn)項目《危險邊緣》。這個電視問答節(jié)目開始于1964年,游戲中的問題包羅萬象,幾乎涵蓋了人類文明的所有領(lǐng)域。
沃森在“危險邊緣”節(jié)目中遙遙領(lǐng)先
人類玩家詹寧斯和魯特是這個領(lǐng)域的頂級高手。前者創(chuàng)下了連續(xù)74場勝利的記錄,后者總共獲得了325萬美元的獎金,但仍然不是沃森的對手。比賽第三天,沃森以41413美元的比分鎖定勝局,而兩名人類選手分別只拿到19200美元和11200美元。
沃森的勝利背后是一個挑戰(zhàn)和兩個優(yōu)勢。
沃森的第一個問題是自然語言理解。沃森能否與主持人互動,理解主持人自然語言的語義和語氣,甚至區(qū)分問題中的雙關(guān)、隱喻等信息,是沃森回答的前提。
突破這一關(guān)后,沃森如魚得水。首先,它有強大的信息源。這些包括百科全書、字典、詞典、新聞和文學(xué)作品,以及數(shù)據(jù)庫、分類學(xué)和本體論。雖然競爭中沒有互聯(lián)網(wǎng)連接,但4TB磁盤上仍有2億頁結(jié)構(gòu)化和非結(jié)構(gòu)化信息供其使用。
其次,它具有強大的計算能力。
沃森基于16TB內(nèi)存和2880 Power 7系列處理器,是當(dāng)前架構(gòu)中最強的處理器。這意味著沃森很快。第一種是快速檢索,可以在3秒鐘內(nèi)檢索出數(shù)百萬條信息,選出三個最有可能的答案;二是快速判斷,能根據(jù)場上情況快速做出是否回答的決定;三是快速回答。當(dāng)其中一個答案的可能性超過50%時,立即開始回答。它主宰著整個游戲,超越了人類的速度。
阿爾法圍棋和圍棋人機大戰(zhàn)
關(guān)鍵詞:深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)
圍棋曾經(jīng)是人工智能無法企及的戰(zhàn)場。
在象棋中,平均每回合有35種可能,一局棋可以有80回合,而圍棋每回合有250種可能,一局棋最多可以打150回合。同時,在一個圍棋游戲中,有多達(dá)3到361次方的不同情況。
李世石和alpha go 1:4不敵
另外圍棋的博弈是幾場局部戰(zhàn)爭綜合的最終結(jié)果,同時局部各部分相互影響,算法無法窮盡。更專業(yè)一點說,Go的難點在于估值功能非常不流暢,可能會被一個子盤翻個底朝天。
Google的AlphaGo程序突破了傳統(tǒng)計算機的“固定”程序邏輯,融入了深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的能力。這個深度神經(jīng)網(wǎng)絡(luò)由策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)組成,策略網(wǎng)絡(luò)負(fù)責(zé)縮小搜索的寬度——面對眼前的一盤棋,有些招式顯然不應(yīng)該采取。這樣AI就可以專注于分析那些有玩法的棋局了。價值網(wǎng)負(fù)責(zé)減少搜索的深度——AI在計算的時候會判斷情況,在情況明顯不如的時候,會直接放棄一些路線,而不是算作黑。
AlphaGo已經(jīng)用這兩個工具學(xué)會了人類所有的棋譜。經(jīng)過幾千萬次的自我玩法和學(xué)習(xí),AlphaGo不僅可以模仿人類棋手的思維,甚至可以超越他們。2016年3月,在與AlphaGo的人機對戰(zhàn)中,來自韓國的世界圍棋冠軍李世石以1: 4落敗。
這個游戲除了計算能力之外,還暴露了機器的其他優(yōu)勢:在場上,人會因為比賽環(huán)境、壓力等外界或情緒因素影響判斷,而機器不會;在幾個小時的戰(zhàn)斗中,人會因疲勞而分心,但機器總能保持注意力。競技場外,人們每天可以做有限的練習(xí),而AI可以以人類一萬多倍的速度練習(xí)。
李世石賽后接受采訪時說:“要適應(yīng)與AlphaGo的比賽,第一個挑戰(zhàn)就是心理方面,需要極大的關(guān)注。繼續(xù)玩下去不一定能贏,因為不能比它更專注,這些方面都贏不了?!?/p>
2017年3月,升級版AlphaGo《恒大師》/[/k0/】誕生,通過下快棋連續(xù)拿下60盤職業(yè)大師賽,其中包括中國最強棋手柯潔。
AlphaGo2.0于2017年初發(fā)布。相對于1.0,這個版本可以稱之為“自學(xué)”。1.0版的AlphaGo是以人類所有的棋譜為基礎(chǔ)的,無論AlphaGo怎么走,都只是計算出一個人類棋手已經(jīng)走了的某一步,充其量是一個完美的“人類棋手”。AlphaGo的2.0版使用這種“完美玩家”的評價功能,與自己對戰(zhàn),進(jìn)行“深度學(xué)習(xí)”,超出了人類棋譜的范圍,是真正的機器計算出來的棋法。
2017年4月,AlphaGo還將與柯潔進(jìn)行一場人機大戰(zhàn),這可能是Go領(lǐng)域最后一場人機大戰(zhàn)。
德州撲克人機大戰(zhàn)
關(guān)鍵詞:不完全信息博弈
2017年1月11日至1月30日,卡耐基梅隆大學(xué)開發(fā)的人工智能天平與四名頂尖人類德州撲克選手之間的“人機大戰(zhàn)”在美國匹茲堡舉行。經(jīng)過20天的比賽,一共打了12萬手,最后人工智能贏了。
與以前在象棋比賽中與人類智能競爭不同的是,人工智能在德州撲克中對人類的挑戰(zhàn)反映了人工智能值得更多關(guān)注的進(jìn)化方向。
在圍棋和象棋的游戲中,雙方的所有信息一目了然,本質(zhì)上是信息對稱的游戲,而德州撲克是信息不對稱的游戲,每個玩家只能看到自己的一手牌。這就決定了人工智能首先需要面對大量的不完全信息。
因此,德普的背后是一個大型的AI協(xié)商算法?!袄浯髱煛辈皇腔诖髷?shù)據(jù)、深度學(xué)習(xí)、強搜索等傳統(tǒng)AI方法;但基于博弈論,在比賽的同時動態(tài)優(yōu)化了勝率最高的數(shù)學(xué)模型。這不僅包括概率統(tǒng)計和操作策略,還包括大量的信息處理計算。CMU計算機科學(xué)學(xué)院院長安德魯·摩爾在一次采訪中說:“如果你想讓人類計算這個程序,人類大約需要1000萬個小時。”
同時,冷普大師也面臨著挑戰(zhàn)。德州撲克更接近人性,因為信息是隱藏的,玩家可以誠實或者欺詐的表達(dá)出來,也就是德州撲克中的虛張聲勢手法。但機器顯然不能通過對手的動作表現(xiàn)來判斷對手牌的強弱,也不能用身體和神態(tài)表演來忽悠對手。
在比賽中,冷大師不能使用德州撲克中的虛張聲勢技巧
百度首席科學(xué)家吳恩達(dá)曾指出:“撲克(不完美的信息游戲)是人工智能最難攻克的游戲之一。每一步都沒有所謂的最優(yōu)解,人工智能要采取隨機策略,這樣當(dāng)它虛張聲勢的時候,對方就沒有把握了。”
相比圍棋AI,德州撲克AI在空應(yīng)用廣泛。在現(xiàn)實世界中,不完美的信息博弈是常態(tài),比如曾經(jīng)被認(rèn)為是人類獨有優(yōu)勢的商務(wù)談判、醫(yī)療計劃制定等領(lǐng)域,未來將面臨機器的挑戰(zhàn)。
結(jié)論:
從1996年到2017年,人工智能與人類的四次競賽,從側(cè)面反映了AI的進(jìn)化:從在計算能力上超越人類,到學(xué)習(xí)自然語言理解,再到深度學(xué)習(xí),直到掌握不完美的信息游戲。在這21年里,機器不僅獲得了更高的智商,情商也輸給了人類。尤其是AI在其最難的游戲德州撲克中挑戰(zhàn)人類,意味著什么,會帶來什么機遇和挑戰(zhàn)?
4月10日上午10:00-12:00,Geek Park將攜手創(chuàng)新作品,與卡內(nèi)基梅隆大學(xué)計算機科學(xué)教授Tuomas Sandholm、創(chuàng)新工場董事長李開復(fù)博士、國內(nèi)5家科技公司創(chuàng)始人共同探討德州撲克ai“冷沖大師”背后的技術(shù)邏輯,探討AI未來會產(chǎn)生哪些更深層次的影響。
這是極客公園前沿社組織的第一次閉門交流。極客園前沿社是一個創(chuàng)業(yè)者社區(qū),通過尖端的技術(shù)交流和最高效的學(xué)習(xí)機制,幫助創(chuàng)業(yè)者提升自我,發(fā)現(xiàn)商業(yè)創(chuàng)新的新可能。歡迎關(guān)注極客公園前沿社會微信官方賬號,訪問官方網(wǎng)站f.geekpark.net,可以收獲獨家深度內(nèi)容,共同思考,刷新認(rèn)知。
1.《人機對戰(zhàn) 人機對戰(zhàn)簡史:從國際象棋到德州撲克》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《人機對戰(zhàn) 人機對戰(zhàn)簡史:從國際象棋到德州撲克》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/jiaoyu/1582661.html