當(dāng)前位置：首頁 > 體育

deepmind Deepmind AMA：你想了解的關(guān)于Deepmind的一切都在這里了！

2021-02-17 09:24:59 體育 deepmind,大衛(wèi),西爾,算法,深度

雷鋒。com:剛才，Deepmind在Reddit的機(jī)器學(xué)習(xí)版塊舉辦了一個在線問答活動AMA。深度思維強(qiáng)化學(xué)習(xí)小組組長大衛(wèi)·西爾弗和他的同事們熱情地回答了網(wǎng)友們提出的各種問題。由于深度思維在AMA會議的前一天剛剛發(fā)表了《掌握沒有人類知識的圍棋》一文，相關(guān)的問題和討論非常熱烈。

什么是AMA？

《AMA》(什么都問我)是Reddit的一個特別專欄。也可以理解為網(wǎng)上的“真相或真相冒險”。AMA通常會指定一個時間，提前幾天在Reddit上收集問題，然后統(tǒng)一回答。

這個深度思維AMA的答案是:

大衛(wèi)·西爾弗:深度思維強(qiáng)化學(xué)習(xí)小組組長，阿爾法狼首席研究員。大衛(wèi)·西爾弗1997年畢業(yè)于劍橋大學(xué)，并獲得愛迪生·韋斯利獎。大衛(wèi)于2004年在阿爾伯塔大學(xué)獲得計算機(jī)科學(xué)博士學(xué)位，并于2013年加入DeepMind。他是AlphaGo項(xiàng)目的主要技術(shù)負(fù)責(zé)人。

朱利安·施里特維瑟:深度思維軟件工程師，深度思維。

此前，很多機(jī)器學(xué)習(xí)領(lǐng)域的大牛/公司在Reddit機(jī)器學(xué)習(xí)設(shè)立了AMA，包括Google Brain Team、OpenAI Research Team、吳恩達(dá)和Adam Coates、于爾根·施密德胡貝爾、杰弗里·辛頓、邁克爾·喬丹、Yann LeCun、Yoshua Bengio等。

雷從今天的《深度思維》中選取了幾個有代表性的問題，整理如下:

關(guān)于論文和技術(shù)細(xì)節(jié)

問:為什么DeepMind Zero訓(xùn)練這么穩(wěn)定？深度強(qiáng)化學(xué)習(xí)不穩(wěn)定，容易遺忘，自我對抗也是如此。沒有良好的初始化狀態(tài)和基于模仿的歷史檢查點(diǎn)，兩者的結(jié)合應(yīng)該是一場災(zāi)難...但是零從零開始，我在論文里沒看到這部分。你是怎么做到的？

大衛(wèi)·西爾弗:深度強(qiáng)化學(xué)習(xí)中，AlphaGo Zero和典型的非模態(tài)算法(如策略梯度或Q學(xué)習(xí))采用完全不同的算法。通過使用AlphaGo搜索，我們可以大大提高策略和自匹配的結(jié)果，然后通過簡單的基于梯度的更新來訓(xùn)練下一個策略和價值網(wǎng)絡(luò)。與簡單的基于梯度的策略改進(jìn)相比，這種方法將更加穩(wěn)定。

問:我注意到ELO年級上升的數(shù)據(jù)只到了第40天。是因?yàn)檎撐慕刂谷掌趩?？還是說AlphaGo的數(shù)據(jù)在那之后沒有明顯改善？

大衛(wèi)·西爾弗:AlphaGo已經(jīng)退役了！這意味著我們在將人員和硬件資源轉(zhuǎn)移到其他人工智能問題上還有很長的路要走。

問:關(guān)于論文的兩個問題:

Q1:你能解釋一下為什么AlphaGo的剩余塊輸入大小是19x19x17嗎？不知道為什么每個對手都需要用8個堆疊的二值特征層來描述。我覺得一兩層就夠了。雖然不太懂圍棋100%的規(guī)則，但八級好像有點(diǎn)過了？

Q2:既然整個渠道都是通過自配和最新/最好的車型對比，你覺得參數(shù)/[/k0/】之間是否存在特定SGD行車軌跡對過擬合的風(fēng)險？

大衛(wèi)·西爾弗:現(xiàn)在用表現(xiàn)法可能比用8層棧好！但是，我們用疊加來觀察歷史數(shù)據(jù)，有三個原因:1)與其他領(lǐng)域的常用輸入一致；2)我們需要一些歷史狀態(tài)來代表KO；3)如果有一些歷史數(shù)據(jù)，我們可以更好的猜測對手最近的位置，可以作為一個關(guān)注機(jī)制(雷鋒網(wǎng)注:在圍棋中，這叫“敵人的關(guān)鍵點(diǎn)就是我的關(guān)鍵點(diǎn)”)，而第17層是用來標(biāo)記我們現(xiàn)在打的是黑還是白子，因?yàn)橐紤]發(fā)帖的目的。

問:借助強(qiáng)大的象棋引擎，我們可以給玩家一個評級——比如Elo Go等級是通過玩家的比賽分析逐步獲得的，那么AlphaGo能否在等級之前分析玩家的實(shí)力？這可能會為研究人類認(rèn)知提供一個平臺。

朱利安·施里特維瑟:謝謝分享，這是個好主意！

我覺得這個完全可以在Go中做到，或許是利用最佳反應(yīng)和實(shí)際反應(yīng)的價值差，或者是政策網(wǎng)評估每手牌位置的概率？等我有空再試試。

問:AlphaGo既然退役了，有沒有開源的計劃？這對Go社區(qū)和機(jī)器學(xué)習(xí)研究都會產(chǎn)生很大的影響。還有，烏鎮(zhèn)哈薩比斯宣布的Go工具什么時候發(fā)布？

大衛(wèi)·西爾弗:現(xiàn)在這個工具正在準(zhǔn)備中。你很快就會看到新消息。

問:在Q:AlphaGo的開發(fā)過程中，系統(tǒng)架構(gòu)遇到的最大障礙是什么？

大衛(wèi)·西爾弗:我們遇到的主要挑戰(zhàn)之一是和李世石的比賽。當(dāng)時我們意識到AlphaGo偶爾會受到我們所謂的“錯覺”的影響，也就是說程序可能會曲解當(dāng)前的盤情，繼續(xù)往錯誤的方向走很多步。我們嘗試了很多方案，包括引入更多的圍棋知識或者人類元知識來解決這個問題。但最終我們成功了，從AlphaGo本身解決了這個問題，更多的依靠強(qiáng)化學(xué)習(xí)的力量來獲得更高質(zhì)量的解決方案。

圍棋愛好者的問題

問:1846年，在第14屆霍尼波的秀策和第11屆井上幻影祖輩的殷碩的比賽中，秀策手下的第127手使幻影祖輩目瞪口呆，耳根發(fā)紅，成為扭轉(zhuǎn)敗局的“赤手”。如果是AlphaGo，還會下同樣的棋嗎？

朱利安·施里茨維瑟:我問過范輝，他的回答是這樣的:

當(dāng)時圍棋沒有貼一個網(wǎng)，但是在AlphaGo的游戲中，黑棋需要貼7.5個網(wǎng)。不同的發(fā)帖情況造成了古今棋局的差異。如果當(dāng)年允許AlphaGo穿越到下一手，很有可能會換個地方玩。

問:根據(jù)已公布的AlphaGo比賽，有更多的時間去拿白子，所以很多人猜測7.5目貼紙?zhí)吡?雷鋒網(wǎng)注:現(xiàn)代Go貼紙的數(shù)量在不斷變化，比如30年前，當(dāng)時流行用5.5目貼紙貼白子)。

如果分析更大的數(shù)據(jù)集，能否得出一些關(guān)于圍棋規(guī)則的有趣結(jié)論？(比如誰有拿黑或拿白的優(yōu)勢，標(biāo)簽應(yīng)該高還是低)

Julian Schrittwieser:從我的經(jīng)驗(yàn)和運(yùn)行結(jié)果來看，7.5目貼兩邊均衡，黑子勝率略高(55%左右)。

問:能告訴我們第一手的選擇嗎？ALphaGo會以我們從未見過的方式開始嗎？比如第一個男人在天元或者其他地方，更奇怪的地方？如果不是，這是一種“習(xí)慣”，還是AlphaGo有一種強(qiáng)烈的“信念”，認(rèn)為星位、小眼睛、三三個是更好的選擇？

大衛(wèi)_西爾弗:在訓(xùn)練的時候，我們看到ALphaGo嘗試了不同的啟動方式——甚至在訓(xùn)練開始的時候，一個個都有第一批人在！

即使在訓(xùn)練后期，我們?nèi)匀豢梢钥吹剿牧鶄€超高進(jìn)球的開始，但是我們很快就回到了小眼睛的正常開始。

問:作為AlphaGo的忠實(shí)粉絲，我腦子里一直有一個問題:AlphaGo能造出多少職業(yè)選手？從論文中我們知道AlphaGo可以放棄游戲，我也知道AlphaGo不能放棄柯潔的兩個兒子，但是我想你一定很好奇，你做過內(nèi)測嗎？

大衛(wèi)·西爾弗:我們沒有放棄和人類玩家下棋。當(dāng)然，我們在測試不同版本的時候玩過子游戲，在AlphaGo Master >: AlphaGo Lee >上；ALphaGo Fan三個版本中，后一個版本可以讓三子打敗前一個版本。但是由于AlphaGo是自我訓(xùn)練的，特別擅長擊敗其較弱的前一個版本，所以我們不認(rèn)為這些訓(xùn)練方法可以擴(kuò)展到讓位于人類玩家。

問:有沒有想過用生成對抗網(wǎng)(GAN)？

大衛(wèi)·銀:從某種意義上說，自我發(fā)揮就是對抗的過程。結(jié)果的每一次迭代都在試圖尋找上一個版本的“逆向策略”。

謠言終結(jié)者

問:聽說AlphaGo在開發(fā)初期被引導(dǎo)進(jìn)行特定方向的訓(xùn)練，以解決游戲中的弱點(diǎn)。現(xiàn)在它的能力已經(jīng)超越了人類。需要另一種機(jī)制進(jìn)一步突破嗎？你做過什么工作？

David_Silver:其實(shí)我們從來沒有指導(dǎo)過AlphaGo解決具體的弱點(diǎn)。我們一直專注于基本的機(jī)器學(xué)習(xí)算法，讓AlphaGo學(xué)會修復(fù)自己的弱點(diǎn)。

當(dāng)然，你不可能做到100%的完美，所以總會有缺點(diǎn)。在實(shí)踐中，我們需要正確的方法來確保訓(xùn)練不會陷入局部最優(yōu)的陷阱，但我們從來沒有使用過人工提升。

關(guān)于深度思維公司

問:我有幾個問題:在DeepMind工作是什么感覺？AlphaGo團(tuán)隊(duì)成員有哪些？能否介紹一下AlphaGo團(tuán)隊(duì)的工作分配？下一個大挑戰(zhàn)是什么？

大衛(wèi)·西爾弗:在DeepMind工作的感覺很棒:)-這不是招聘廣告，但我覺得每天在這里做自己喜歡的事情是如此幸運(yùn)。有很多(太多了忙不過來！:))酷項(xiàng)目參加。

我們很幸運(yùn)有很多大牛在AlphaGo工作。您可以通過查看相應(yīng)的作者列表獲得更詳細(xì)的信息。

問:你認(rèn)為本科生在人工智能領(lǐng)域能成功嗎？

朱利安·施瑞特維斯:當(dāng)然。我只有計算機(jī)專業(yè)的學(xué)士學(xué)位，這個領(lǐng)域變化很快。我認(rèn)為你可以通過閱讀最新的論文和實(shí)驗(yàn)來自學(xué)。另外，去做過機(jī)器學(xué)習(xí)項(xiàng)目的公司實(shí)習(xí)很有幫助。

關(guān)于算法和其他項(xiàng)目的擴(kuò)展

問:哈薩比斯今年3月在劍橋的一次演講中說，AlphaGo項(xiàng)目未來的目標(biāo)之一是解釋神經(jīng)網(wǎng)絡(luò)。我的問題是:ALphaGo在神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)上有什么進(jìn)步，還是說神經(jīng)網(wǎng)絡(luò)對AlphaGo來說還是一個神秘的黑匣子？

大衛(wèi)·西爾弗:不僅僅是ALphaGo，可解釋性在我們所有的項(xiàng)目中都是一個非常有趣的話題。Deepmind中有許多團(tuán)隊(duì)以不同的方式探索我們的系統(tǒng)。最近有團(tuán)隊(duì)發(fā)表了一篇基于認(rèn)知心理學(xué)技術(shù)的破解匹配網(wǎng)絡(luò)中發(fā)生的事情的嘗試，效果很好！

問:很高興看到AlphaGo Zero的好成績。我們的一篇NIPS論文也提到了深度學(xué)習(xí)和搜索樹的類似效率，所以我對較長訓(xùn)練過程中的行為特別感興趣。

在AlphaGo的訓(xùn)練過程中，蒙特卡洛樹搜索創(chuàng)建學(xué)習(xí)目標(biāo)的貪婪算法、策略網(wǎng)絡(luò)的貪婪算法和價值函數(shù)變化的貪婪算法在訓(xùn)練過程中的相對表現(xiàn)如何？這種自學(xué)游戲的方法可以應(yīng)用到最近的星際爭霸2 API嗎？

大衛(wèi)·西爾弗:謝謝你介紹你的論文！我不敢相信這篇論文是在我們4月7日提交的時候發(fā)表的。其實(shí)和我們學(xué)習(xí)算法的策略成分很像(雖然我們也有價值成分)。你可以參考我們的方法和強(qiáng)化學(xué)習(xí)中的討論，你很高興看到其他游戲中也使用了類似的方法。

問:為什么早期版本的AlphaGo不嘗試自己玩？或者說，AlphaGo之前也嘗試過玩自我游戲，但是效果不好？

很好奇這個領(lǐng)域的發(fā)展和進(jìn)步。和今天相比，兩年前設(shè)計一款帶自我訓(xùn)練的AlphaGo的瓶頸是什么？我們今天看到的“機(jī)器學(xué)習(xí)直覺”經(jīng)歷了怎樣的系統(tǒng)迭代過程？

David_Silver:創(chuàng)建自主學(xué)習(xí)體系一直是加強(qiáng)學(xué)習(xí)的開放性問題。我們最初的嘗試包括很多你能找到的類似算法，都是相當(dāng)不穩(wěn)定的。我們做了很多嘗試，最后AlphaGo Zero算法是最有效的，似乎解決了這個具體問題。

問:你認(rèn)為機(jī)器人什么時候能有效解決現(xiàn)實(shí)世界中的身高和體型問題(比如學(xué)習(xí)如何抓取任何形狀、大小和位置的垃圾)？戰(zhàn)略梯度法是實(shí)現(xiàn)這個目標(biāo)的關(guān)鍵點(diǎn)嗎？

Julian Schrittwieser:這主要是因?yàn)閮r值/政策網(wǎng)絡(luò)上的雙重提升，包括更好的培訓(xùn)和更好的架構(gòu)。不同網(wǎng)絡(luò)架構(gòu)的比較請參見圖4。

問:據(jù)說柯潔打ALphaGo大師的功耗只有李世石打AlphaGo李的十分之一。你做過什么樣的優(yōu)化？

Julian Schrittwieser:這主要是因?yàn)閮r值/政策網(wǎng)絡(luò)上的雙重提升，包括更好的培訓(xùn)和更好的架構(gòu)。不同網(wǎng)絡(luò)架構(gòu)的比較請參見圖4。(雷鋒。com Press:你確定不是文案最后一個問題的答案？)

問:在強(qiáng)化學(xué)習(xí)中使用或模擬Agent的長期記憶似乎是一個很大的障礙。展望未來，你認(rèn)為我們能以新的思維方式解決這個問題嗎？還是要等我們的技術(shù)實(shí)現(xiàn)超級網(wǎng)絡(luò)？

朱利安·施里特維瑟:是的，長期記憶可能是一個重要因素。比如星際爭霸游戲，你可能做了上千次動作，但還是要記住你派出的斥候。

我覺得現(xiàn)在有令人興奮的組件(神經(jīng)圖靈機(jī)！)，但我覺得我們在這方面還是有很大的提升空。

大衛(wèi)，我看過你的演講視頻。你提到強(qiáng)化學(xué)習(xí)可以用于金融交易。有沒有現(xiàn)實(shí)世界的例子？你會如何處理黑天鵝事件(一件你從未遇到過的事情)？

David_Silver:已發(fā)表的關(guān)于為現(xiàn)實(shí)世界增強(qiáng)學(xué)習(xí)金融算法的論文非常少，但是有一些經(jīng)典的論文值得一看，比如2006年Nevmyvaka和Kearns寫的，2001年Moody和Safell寫的。

問:你和Facebook幾乎同時學(xué)習(xí)圍棋。你更快獲得高手表現(xiàn)的優(yōu)勢是什么？

對于那些得不到AlphaGo那么多訓(xùn)練數(shù)據(jù)的領(lǐng)域，如何進(jìn)行機(jī)器學(xué)習(xí)或者增強(qiáng)學(xué)習(xí)？

David _ Silver: Facebook更注重監(jiān)督學(xué)習(xí)，我們選擇更注重強(qiáng)化學(xué)習(xí)，因?yàn)槲覀兿嘈臕lphaGo最終會超越人類的知識。我們最近的結(jié)果實(shí)際上表明，監(jiān)督學(xué)習(xí)可以令人驚訝，但強(qiáng)化學(xué)習(xí)絕對是遠(yuǎn)遠(yuǎn)超出人類水平的關(guān)鍵點(diǎn)。

1.《deepmind Deepmind AMA：你想了解的關(guān)于Deepmind的一切都在這里了！》援引自互聯(lián)網(wǎng)，旨在傳遞更多網(wǎng)絡(luò)信息知識，僅代表作者本人觀點(diǎn)，與本網(wǎng)站無關(guān)，侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《deepmind Deepmind AMA：你想了解的關(guān)于Deepmind的一切都在這里了！》僅供讀者參考，本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí)，對其原創(chuàng)性、真實(shí)性、完整性、及時性不作任何保證。

3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址，http://f99ss.com/tiyu/820087.html