雷鋒。com:剛才,Deepmind在Reddit的機(jī)器學(xué)習(xí)版塊舉辦了一個在線問答活動AMA。深度思維強(qiáng)化學(xué)習(xí)小組組長大衛(wèi)·西爾弗和他的同事們熱情地回答了網(wǎng)友們提出的各種問題。由于深度思維在AMA會議的前一天剛剛發(fā)表了《掌握沒有人類知識的圍棋》一文,相關(guān)的問題和討論非常熱烈。
什么是AMA?
《AMA》(什么都問我)是Reddit的一個特別專欄。也可以理解為網(wǎng)上的“真相或真相冒險”。AMA通常會指定一個時間,提前幾天在Reddit上收集問題,然后統(tǒng)一回答。
這個深度思維AMA的答案是:
大衛(wèi)·西爾弗:深度思維強(qiáng)化學(xué)習(xí)小組組長,阿爾法狼首席研究員。大衛(wèi)·西爾弗1997年畢業(yè)于劍橋大學(xué),并獲得愛迪生·韋斯利獎。大衛(wèi)于2004年在阿爾伯塔大學(xué)獲得計算機(jī)科學(xué)博士學(xué)位,并于2013年加入DeepMind。他是AlphaGo項(xiàng)目的主要技術(shù)負(fù)責(zé)人。
朱利安·施里特維瑟:深度思維軟件工程師,深度思維。
此前,很多機(jī)器學(xué)習(xí)領(lǐng)域的大牛/公司在Reddit機(jī)器學(xué)習(xí)設(shè)立了AMA,包括Google Brain Team、OpenAI Research Team、吳恩達(dá)和Adam Coates、于爾根·施密德胡貝爾、杰弗里·辛頓、邁克爾·喬丹、Yann LeCun、Yoshua Bengio等。
雷從今天的《深度思維》中選取了幾個有代表性的問題,整理如下:
關(guān)于論文和技術(shù)細(xì)節(jié)
問:為什么DeepMind Zero訓(xùn)練這么穩(wěn)定?深度強(qiáng)化學(xué)習(xí)不穩(wěn)定,容易遺忘,自我對抗也是如此。沒有良好的初始化狀態(tài)和基于模仿的歷史檢查點(diǎn),兩者的結(jié)合應(yīng)該是一場災(zāi)難...但是零從零開始,我在論文里沒看到這部分。你是怎么做到的?
大衛(wèi)·西爾弗:深度強(qiáng)化學(xué)習(xí)中,AlphaGo Zero和典型的非模態(tài)算法(如策略梯度或Q學(xué)習(xí))采用完全不同的算法。通過使用AlphaGo搜索,我們可以大大提高策略和自匹配的結(jié)果,然后通過簡單的基于梯度的更新來訓(xùn)練下一個策略和價值網(wǎng)絡(luò)。與簡單的基于梯度的策略改進(jìn)相比,這種方法將更加穩(wěn)定。
問:我注意到ELO年級上升的數(shù)據(jù)只到了第40天。是因?yàn)檎撐慕刂谷掌趩??還是說AlphaGo的數(shù)據(jù)在那之后沒有明顯改善?
大衛(wèi)·西爾弗:AlphaGo已經(jīng)退役了!這意味著我們在將人員和硬件資源轉(zhuǎn)移到其他人工智能問題上還有很長的路要走。
問:關(guān)于論文的兩個問題:
Q1:你能解釋一下為什么AlphaGo的剩余塊輸入大小是19x19x17嗎?不知道為什么每個對手都需要用8個堆疊的二值特征層來描述。我覺得一兩層就夠了。雖然不太懂圍棋100%的規(guī)則,但八級好像有點(diǎn)過了?
Q2:既然整個渠道都是通過自配和最新/最好的車型對比,你覺得參數(shù)/[/k0/】之間是否存在特定SGD行車軌跡對過擬合的風(fēng)險?
大衛(wèi)·西爾弗:現(xiàn)在用表現(xiàn)法可能比用8層棧好!但是,我們用疊加來觀察歷史數(shù)據(jù),有三個原因:1)與其他領(lǐng)域的常用輸入一致;2)我們需要一些歷史狀態(tài)來代表KO;3)如果有一些歷史數(shù)據(jù),我們可以更好的猜測對手最近的位置,可以作為一個關(guān)注機(jī)制(雷鋒網(wǎng)注:在圍棋中,這叫“敵人的關(guān)鍵點(diǎn)就是我的關(guān)鍵點(diǎn)”),而第17層是用來標(biāo)記我們現(xiàn)在打的是黑還是白子,因?yàn)橐紤]發(fā)帖的目的。
問:借助強(qiáng)大的象棋引擎,我們可以給玩家一個評級——比如Elo Go等級是通過玩家的比賽分析逐步獲得的,那么AlphaGo能否在等級之前分析玩家的實(shí)力?這可能會為研究人類認(rèn)知提供一個平臺。
朱利安·施里特維瑟:謝謝分享,這是個好主意!
我覺得這個完全可以在Go中做到,或許是利用最佳反應(yīng)和實(shí)際反應(yīng)的價值差,或者是政策網(wǎng)評估每手牌位置的概率?等我有空再試試。
問:AlphaGo既然退役了,有沒有開源的計劃?這對Go社區(qū)和機(jī)器學(xué)習(xí)研究都會產(chǎn)生很大的影響。還有,烏鎮(zhèn)哈薩比斯宣布的Go工具什么時候發(fā)布?
大衛(wèi)·西爾弗:現(xiàn)在這個工具正在準(zhǔn)備中。你很快就會看到新消息。
問:在Q:AlphaGo的開發(fā)過程中,系統(tǒng)架構(gòu)遇到的最大障礙是什么?
大衛(wèi)·西爾弗:我們遇到的主要挑戰(zhàn)之一是和李世石的比賽。當(dāng)時我們意識到AlphaGo偶爾會受到我們所謂的“錯覺”的影響,也就是說程序可能會曲解當(dāng)前的盤情,繼續(xù)往錯誤的方向走很多步。我們嘗試了很多方案,包括引入更多的圍棋知識或者人類元知識來解決這個問題。但最終我們成功了,從AlphaGo本身解決了這個問題,更多的依靠強(qiáng)化學(xué)習(xí)的力量來獲得更高質(zhì)量的解決方案。
圍棋愛好者的問題
問:1846年,在第14屆霍尼波的秀策和第11屆井上幻影祖輩的殷碩的比賽中,秀策手下的第127手使幻影祖輩目瞪口呆,耳根發(fā)紅,成為扭轉(zhuǎn)敗局的“赤手”。如果是AlphaGo,還會下同樣的棋嗎?
朱利安·施里茨維瑟:我問過范輝,他的回答是這樣的:
當(dāng)時圍棋沒有貼一個網(wǎng),但是在AlphaGo的游戲中,黑棋需要貼7.5個網(wǎng)。不同的發(fā)帖情況造成了古今棋局的差異。如果當(dāng)年允許AlphaGo穿越到下一手,很有可能會換個地方玩。
問:根據(jù)已公布的AlphaGo比賽,有更多的時間去拿白子,所以很多人猜測7.5目貼紙?zhí)吡?雷鋒網(wǎng)注:現(xiàn)代Go貼紙的數(shù)量在不斷變化,比如30年前,當(dāng)時流行用5.5目貼紙貼白子)。
如果分析更大的數(shù)據(jù)集,能否得出一些關(guān)于圍棋規(guī)則的有趣結(jié)論?(比如誰有拿黑或拿白的優(yōu)勢,標(biāo)簽應(yīng)該高還是低)
Julian Schrittwieser:從我的經(jīng)驗(yàn)和運(yùn)行結(jié)果來看,7.5目貼兩邊均衡,黑子勝率略高(55%左右)。
問:能告訴我們第一手的選擇嗎?ALphaGo會以我們從未見過的方式開始嗎?比如第一個男人在天元或者其他地方,更奇怪的地方?如果不是,這是一種“習(xí)慣”,還是AlphaGo有一種強(qiáng)烈的“信念”,認(rèn)為星位、小眼睛、三三個是更好的選擇?
大衛(wèi)_西爾弗:在訓(xùn)練的時候,我們看到ALphaGo嘗試了不同的啟動方式——甚至在訓(xùn)練開始的時候,一個個都有第一批人在!
即使在訓(xùn)練后期,我們?nèi)匀豢梢钥吹剿牧鶄€超高進(jìn)球的開始,但是我們很快就回到了小眼睛的正常開始。
問:作為AlphaGo的忠實(shí)粉絲,我腦子里一直有一個問題:AlphaGo能造出多少職業(yè)選手?從論文中我們知道AlphaGo可以放棄游戲,我也知道AlphaGo不能放棄柯潔的兩個兒子,但是我想你一定很好奇,你做過內(nèi)測嗎?
大衛(wèi)·西爾弗:我們沒有放棄和人類玩家下棋。當(dāng)然,我們在測試不同版本的時候玩過子游戲,在AlphaGo Master >: AlphaGo Lee >上;ALphaGo Fan三個版本中,后一個版本可以讓三子打敗前一個版本。但是由于AlphaGo是自我訓(xùn)練的,特別擅長擊敗其較弱的前一個版本,所以我們不認(rèn)為這些訓(xùn)練方法可以擴(kuò)展到讓位于人類玩家。
問:有沒有想過用生成對抗網(wǎng)(GAN)?
大衛(wèi)·銀:從某種意義上說,自我發(fā)揮就是對抗的過程。結(jié)果的每一次迭代都在試圖尋找上一個版本的“逆向策略”。
謠言終結(jié)者
問:聽說AlphaGo在開發(fā)初期被引導(dǎo)進(jìn)行特定方向的訓(xùn)練,以解決游戲中的弱點(diǎn)。現(xiàn)在它的能力已經(jīng)超越了人類。需要另一種機(jī)制進(jìn)一步突破嗎?你做過什么工作?
David_Silver:其實(shí)我們從來沒有指導(dǎo)過AlphaGo解決具體的弱點(diǎn)。我們一直專注于基本的機(jī)器學(xué)習(xí)算法,讓AlphaGo學(xué)會修復(fù)自己的弱點(diǎn)。
當(dāng)然,你不可能做到100%的完美,所以總會有缺點(diǎn)。在實(shí)踐中,我們需要正確的方法來確保訓(xùn)練不會陷入局部最優(yōu)的陷阱,但我們從來沒有使用過人工提升。
關(guān)于深度思維公司
問:我有幾個問題:在DeepMind工作是什么感覺?AlphaGo團(tuán)隊(duì)成員有哪些?能否介紹一下AlphaGo團(tuán)隊(duì)的工作分配?下一個大挑戰(zhàn)是什么?
大衛(wèi)·西爾弗:在DeepMind工作的感覺很棒:)-這不是招聘廣告,但我覺得每天在這里做自己喜歡的事情是如此幸運(yùn)。有很多(太多了忙不過來!:))酷項(xiàng)目參加。
我們很幸運(yùn)有很多大牛在AlphaGo工作。您可以通過查看相應(yīng)的作者列表獲得更詳細(xì)的信息。
問:你認(rèn)為本科生在人工智能領(lǐng)域能成功嗎?
朱利安·施瑞特維斯:當(dāng)然。我只有計算機(jī)專業(yè)的學(xué)士學(xué)位,這個領(lǐng)域變化很快。我認(rèn)為你可以通過閱讀最新的論文和實(shí)驗(yàn)來自學(xué)。另外,去做過機(jī)器學(xué)習(xí)項(xiàng)目的公司實(shí)習(xí)很有幫助。
關(guān)于算法和其他項(xiàng)目的擴(kuò)展
問:哈薩比斯今年3月在劍橋的一次演講中說,AlphaGo項(xiàng)目未來的目標(biāo)之一是解釋神經(jīng)網(wǎng)絡(luò)。我的問題是:ALphaGo在神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)上有什么進(jìn)步,還是說神經(jīng)網(wǎng)絡(luò)對AlphaGo來說還是一個神秘的黑匣子?
大衛(wèi)·西爾弗:不僅僅是ALphaGo,可解釋性在我們所有的項(xiàng)目中都是一個非常有趣的話題。Deepmind中有許多團(tuán)隊(duì)以不同的方式探索我們的系統(tǒng)。最近有團(tuán)隊(duì)發(fā)表了一篇基于認(rèn)知心理學(xué)技術(shù)的破解匹配網(wǎng)絡(luò)中發(fā)生的事情的嘗試,效果很好!
問:很高興看到AlphaGo Zero的好成績。我們的一篇NIPS論文也提到了深度學(xué)習(xí)和搜索樹的類似效率,所以我對較長訓(xùn)練過程中的行為特別感興趣。
在AlphaGo的訓(xùn)練過程中,蒙特卡洛樹搜索創(chuàng)建學(xué)習(xí)目標(biāo)的貪婪算法、策略網(wǎng)絡(luò)的貪婪算法和價值函數(shù)變化的貪婪算法在訓(xùn)練過程中的相對表現(xiàn)如何?這種自學(xué)游戲的方法可以應(yīng)用到最近的星際爭霸2 API嗎?
大衛(wèi)·西爾弗:謝謝你介紹你的論文!我不敢相信這篇論文是在我們4月7日提交的時候發(fā)表的。其實(shí)和我們學(xué)習(xí)算法的策略成分很像(雖然我們也有價值成分)。你可以參考我們的方法和強(qiáng)化學(xué)習(xí)中的討論,你很高興看到其他游戲中也使用了類似的方法。
問:為什么早期版本的AlphaGo不嘗試自己玩?或者說,AlphaGo之前也嘗試過玩自我游戲,但是效果不好?
很好奇這個領(lǐng)域的發(fā)展和進(jìn)步。和今天相比,兩年前設(shè)計一款帶自我訓(xùn)練的AlphaGo的瓶頸是什么?我們今天看到的“機(jī)器學(xué)習(xí)直覺”經(jīng)歷了怎樣的系統(tǒng)迭代過程?
David_Silver:創(chuàng)建自主學(xué)習(xí)體系一直是加強(qiáng)學(xué)習(xí)的開放性問題。我們最初的嘗試包括很多你能找到的類似算法,都是相當(dāng)不穩(wěn)定的。我們做了很多嘗試,最后AlphaGo Zero算法是最有效的,似乎解決了這個具體問題。
問:你認(rèn)為機(jī)器人什么時候能有效解決現(xiàn)實(shí)世界中的身高和體型問題(比如學(xué)習(xí)如何抓取任何形狀、大小和位置的垃圾)?戰(zhàn)略梯度法是實(shí)現(xiàn)這個目標(biāo)的關(guān)鍵點(diǎn)嗎?
Julian Schrittwieser:這主要是因?yàn)閮r值/政策網(wǎng)絡(luò)上的雙重提升,包括更好的培訓(xùn)和更好的架構(gòu)。不同網(wǎng)絡(luò)架構(gòu)的比較請參見圖4。
問:據(jù)說柯潔打ALphaGo大師的功耗只有李世石打AlphaGo李的十分之一。你做過什么樣的優(yōu)化?
Julian Schrittwieser:這主要是因?yàn)閮r值/政策網(wǎng)絡(luò)上的雙重提升,包括更好的培訓(xùn)和更好的架構(gòu)。不同網(wǎng)絡(luò)架構(gòu)的比較請參見圖4。(雷鋒。com Press:你確定不是文案最后一個問題的答案?)
問:在強(qiáng)化學(xué)習(xí)中使用或模擬Agent的長期記憶似乎是一個很大的障礙。展望未來,你認(rèn)為我們能以新的思維方式解決這個問題嗎?還是要等我們的技術(shù)實(shí)現(xiàn)超級網(wǎng)絡(luò)?
朱利安·施里特維瑟:是的,長期記憶可能是一個重要因素。比如星際爭霸游戲,你可能做了上千次動作,但還是要記住你派出的斥候。
我覺得現(xiàn)在有令人興奮的組件(神經(jīng)圖靈機(jī)!),但我覺得我們在這方面還是有很大的提升空。
大衛(wèi),我看過你的演講視頻。你提到強(qiáng)化學(xué)習(xí)可以用于金融交易。有沒有現(xiàn)實(shí)世界的例子?你會如何處理黑天鵝事件(一件你從未遇到過的事情)?
David_Silver:已發(fā)表的關(guān)于為現(xiàn)實(shí)世界增強(qiáng)學(xué)習(xí)金融算法的論文非常少,但是有一些經(jīng)典的論文值得一看,比如2006年Nevmyvaka和Kearns寫的,2001年Moody和Safell寫的。
問:你和Facebook幾乎同時學(xué)習(xí)圍棋。你更快獲得高手表現(xiàn)的優(yōu)勢是什么?
對于那些得不到AlphaGo那么多訓(xùn)練數(shù)據(jù)的領(lǐng)域,如何進(jìn)行機(jī)器學(xué)習(xí)或者增強(qiáng)學(xué)習(xí)?
David _ Silver: Facebook更注重監(jiān)督學(xué)習(xí),我們選擇更注重強(qiáng)化學(xué)習(xí),因?yàn)槲覀兿嘈臕lphaGo最終會超越人類的知識。我們最近的結(jié)果實(shí)際上表明,監(jiān)督學(xué)習(xí)可以令人驚訝,但強(qiáng)化學(xué)習(xí)絕對是遠(yuǎn)遠(yuǎn)超出人類水平的關(guān)鍵點(diǎn)。
1.《deepmind Deepmind AMA:你想了解的關(guān)于Deepmind的一切都在這里了!》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《deepmind Deepmind AMA:你想了解的關(guān)于Deepmind的一切都在這里了!》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí),對其原創(chuàng)性、真實(shí)性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/tiyu/820087.html