丝袜人妻一区二区三区_少妇福利无码视频_亚洲理论片在线观看_一级毛片国产A级片

當(dāng)前位置:首頁 > 體育

deepmind Deepmind AMA:你想了解的關(guān)于Deepmind的一切都在這里了!

雷鋒。com:剛才,Deepmind在Reddit的機(jī)器學(xué)習(xí)版塊舉辦了一個在線問答活動AMA。深度思維強(qiáng)化學(xué)習(xí)小組組長大衛(wèi)·西爾弗和他的同事們熱情地回答了網(wǎng)友們提出的各種問題。由于深度思維在AMA會議的前一天剛剛發(fā)表了《掌握沒有人類知識的圍棋》一文,相關(guān)的問題和討論非常熱烈。

什么是AMA?

《AMA》(什么都問我)是Reddit的一個特別專欄。也可以理解為網(wǎng)上的“真相或真相冒險”。AMA通常會指定一個時間,提前幾天在Reddit上收集問題,然后統(tǒng)一回答。

這個深度思維AMA的答案是:

大衛(wèi)·西爾弗:深度思維強(qiáng)化學(xué)習(xí)小組組長,阿爾法狼首席研究員。大衛(wèi)·西爾弗1997年畢業(yè)于劍橋大學(xué),并獲得愛迪生·韋斯利獎。大衛(wèi)于2004年在阿爾伯塔大學(xué)獲得計算機(jī)科學(xué)博士學(xué)位,并于2013年加入DeepMind。他是AlphaGo項(xiàng)目的主要技術(shù)負(fù)責(zé)人。

朱利安·施里特維瑟:深度思維軟件工程師,深度思維。

此前,很多機(jī)器學(xué)習(xí)領(lǐng)域的大牛/公司在Reddit機(jī)器學(xué)習(xí)設(shè)立了AMA,包括Google Brain Team、OpenAI Research Team、吳恩達(dá)和Adam Coates、于爾根·施密德胡貝爾、杰弗里·辛頓、邁克爾·喬丹、Yann LeCun、Yoshua Bengio等。

雷從今天的《深度思維》中選取了幾個有代表性的問題,整理如下:

關(guān)于論文和技術(shù)細(xì)節(jié)

問:為什么DeepMind Zero訓(xùn)練這么穩(wěn)定?深度強(qiáng)化學(xué)習(xí)不穩(wěn)定,容易遺忘,自我對抗也是如此。沒有良好的初始化狀態(tài)和基于模仿的歷史檢查點(diǎn),兩者的結(jié)合應(yīng)該是一場災(zāi)難...但是零從零開始,我在論文里沒看到這部分。你是怎么做到的?

大衛(wèi)·西爾弗:深度強(qiáng)化學(xué)習(xí)中,AlphaGo Zero和典型的非模態(tài)算法(如策略梯度或Q學(xué)習(xí))采用完全不同的算法。通過使用AlphaGo搜索,我們可以大大提高策略和自匹配的結(jié)果,然后通過簡單的基于梯度的更新來訓(xùn)練下一個策略和價值網(wǎng)絡(luò)。與簡單的基于梯度的策略改進(jìn)相比,這種方法將更加穩(wěn)定。

問:我注意到ELO年級上升的數(shù)據(jù)只到了第40天。是因?yàn)檎撐慕刂谷掌趩??還是說AlphaGo的數(shù)據(jù)在那之后沒有明顯改善?

大衛(wèi)·西爾弗:AlphaGo已經(jīng)退役了!這意味著我們在將人員和硬件資源轉(zhuǎn)移到其他人工智能問題上還有很長的路要走。

問:關(guān)于論文的兩個問題:

Q1:你能解釋一下為什么AlphaGo的剩余塊輸入大小是19x19x17嗎?不知道為什么每個對手都需要用8個堆疊的二值特征層來描述。我覺得一兩層就夠了。雖然不太懂圍棋100%的規(guī)則,但八級好像有點(diǎn)過了?

Q2:既然整個渠道都是通過自配和最新/最好的車型對比,你覺得參數(shù)/[/k0/】之間是否存在特定SGD行車軌跡對過擬合的風(fēng)險?

大衛(wèi)·西爾弗:現(xiàn)在用表現(xiàn)法可能比用8層棧好!但是,我們用疊加來觀察歷史數(shù)據(jù),有三個原因:1)與其他領(lǐng)域的常用輸入一致;2)我們需要一些歷史狀態(tài)來代表KO;3)如果有一些歷史數(shù)據(jù),我們可以更好的猜測對手最近的位置,可以作為一個關(guān)注機(jī)制(雷鋒網(wǎng)注:在圍棋中,這叫“敵人的關(guān)鍵點(diǎn)就是我的關(guān)鍵點(diǎn)”),而第17層是用來標(biāo)記我們現(xiàn)在打的是黑還是白子,因?yàn)橐紤]發(fā)帖的目的。

問:借助強(qiáng)大的象棋引擎,我們可以給玩家一個評級——比如Elo Go等級是通過玩家的比賽分析逐步獲得的,那么AlphaGo能否在等級之前分析玩家的實(shí)力?這可能會為研究人類認(rèn)知提供一個平臺。

朱利安·施里特維瑟:謝謝分享,這是個好主意!

我覺得這個完全可以在Go中做到,或許是利用最佳反應(yīng)和實(shí)際反應(yīng)的價值差,或者是政策網(wǎng)評估每手牌位置的概率?等我有空再試試。

問:AlphaGo既然退役了,有沒有開源的計劃?這對Go社區(qū)和機(jī)器學(xué)習(xí)研究都會產(chǎn)生很大的影響。還有,烏鎮(zhèn)哈薩比斯宣布的Go工具什么時候發(fā)布?

大衛(wèi)·西爾弗:現(xiàn)在這個工具正在準(zhǔn)備中。你很快就會看到新消息。

問:在Q:AlphaGo的開發(fā)過程中,系統(tǒng)架構(gòu)遇到的最大障礙是什么?

大衛(wèi)·西爾弗:我們遇到的主要挑戰(zhàn)之一是和李世石的比賽。當(dāng)時我們意識到AlphaGo偶爾會受到我們所謂的“錯覺”的影響,也就是說程序可能會曲解當(dāng)前的盤情,繼續(xù)往錯誤的方向走很多步。我們嘗試了很多方案,包括引入更多的圍棋知識或者人類元知識來解決這個問題。但最終我們成功了,從AlphaGo本身解決了這個問題,更多的依靠強(qiáng)化學(xué)習(xí)的力量來獲得更高質(zhì)量的解決方案。

圍棋愛好者的問題

問:1846年,在第14屆霍尼波的秀策和第11屆井上幻影祖輩的殷碩的比賽中,秀策手下的第127手使幻影祖輩目瞪口呆,耳根發(fā)紅,成為扭轉(zhuǎn)敗局的“赤手”。如果是AlphaGo,還會下同樣的棋嗎?

朱利安·施里茨維瑟:我問過范輝,他的回答是這樣的:

當(dāng)時圍棋沒有貼一個網(wǎng),但是在AlphaGo的游戲中,黑棋需要貼7.5個網(wǎng)。不同的發(fā)帖情況造成了古今棋局的差異。如果當(dāng)年允許AlphaGo穿越到下一手,很有可能會換個地方玩。

問:根據(jù)已公布的AlphaGo比賽,有更多的時間去拿白子,所以很多人猜測7.5目貼紙?zhí)吡?雷鋒網(wǎng)注:現(xiàn)代Go貼紙的數(shù)量在不斷變化,比如30年前,當(dāng)時流行用5.5目貼紙貼白子)。

如果分析更大的數(shù)據(jù)集,能否得出一些關(guān)于圍棋規(guī)則的有趣結(jié)論?(比如誰有拿黑或拿白的優(yōu)勢,標(biāo)簽應(yīng)該高還是低)

Julian Schrittwieser:從我的經(jīng)驗(yàn)和運(yùn)行結(jié)果來看,7.5目貼兩邊均衡,黑子勝率略高(55%左右)。

問:能告訴我們第一手的選擇嗎?ALphaGo會以我們從未見過的方式開始嗎?比如第一個男人在天元或者其他地方,更奇怪的地方?如果不是,這是一種“習(xí)慣”,還是AlphaGo有一種強(qiáng)烈的“信念”,認(rèn)為星位、小眼睛、三三個是更好的選擇?

大衛(wèi)_西爾弗:在訓(xùn)練的時候,我們看到ALphaGo嘗試了不同的啟動方式——甚至在訓(xùn)練開始的時候,一個個都有第一批人在!

即使在訓(xùn)練后期,我們?nèi)匀豢梢钥吹剿牧鶄€超高進(jìn)球的開始,但是我們很快就回到了小眼睛的正常開始。

問:作為AlphaGo的忠實(shí)粉絲,我腦子里一直有一個問題:AlphaGo能造出多少職業(yè)選手?從論文中我們知道AlphaGo可以放棄游戲,我也知道AlphaGo不能放棄柯潔的兩個兒子,但是我想你一定很好奇,你做過內(nèi)測嗎?

大衛(wèi)·西爾弗:我們沒有放棄和人類玩家下棋。當(dāng)然,我們在測試不同版本的時候玩過子游戲,在AlphaGo Master >: AlphaGo Lee >上;ALphaGo Fan三個版本中,后一個版本可以讓三子打敗前一個版本。但是由于AlphaGo是自我訓(xùn)練的,特別擅長擊敗其較弱的前一個版本,所以我們不認(rèn)為這些訓(xùn)練方法可以擴(kuò)展到讓位于人類玩家。

問:有沒有想過用生成對抗網(wǎng)(GAN)?

大衛(wèi)·銀:從某種意義上說,自我發(fā)揮就是對抗的過程。結(jié)果的每一次迭代都在試圖尋找上一個版本的“逆向策略”。

謠言終結(jié)者

問:聽說AlphaGo在開發(fā)初期被引導(dǎo)進(jìn)行特定方向的訓(xùn)練,以解決游戲中的弱點(diǎn)。現(xiàn)在它的能力已經(jīng)超越了人類。需要另一種機(jī)制進(jìn)一步突破嗎?你做過什么工作?

David_Silver:其實(shí)我們從來沒有指導(dǎo)過AlphaGo解決具體的弱點(diǎn)。我們一直專注于基本的機(jī)器學(xué)習(xí)算法,讓AlphaGo學(xué)會修復(fù)自己的弱點(diǎn)。

當(dāng)然,你不可能做到100%的完美,所以總會有缺點(diǎn)。在實(shí)踐中,我們需要正確的方法來確保訓(xùn)練不會陷入局部最優(yōu)的陷阱,但我們從來沒有使用過人工提升。

關(guān)于深度思維公司

問:我有幾個問題:在DeepMind工作是什么感覺?AlphaGo團(tuán)隊(duì)成員有哪些?能否介紹一下AlphaGo團(tuán)隊(duì)的工作分配?下一個大挑戰(zhàn)是什么?

大衛(wèi)·西爾弗:在DeepMind工作的感覺很棒:)-這不是招聘廣告,但我覺得每天在這里做自己喜歡的事情是如此幸運(yùn)。有很多(太多了忙不過來!:))酷項(xiàng)目參加。

我們很幸運(yùn)有很多大牛在AlphaGo工作。您可以通過查看相應(yīng)的作者列表獲得更詳細(xì)的信息。

問:你認(rèn)為本科生在人工智能領(lǐng)域能成功嗎?

朱利安·施瑞特維斯:當(dāng)然。我只有計算機(jī)專業(yè)的學(xué)士學(xué)位,這個領(lǐng)域變化很快。我認(rèn)為你可以通過閱讀最新的論文和實(shí)驗(yàn)來自學(xué)。另外,去做過機(jī)器學(xué)習(xí)項(xiàng)目的公司實(shí)習(xí)很有幫助。

關(guān)于算法和其他項(xiàng)目的擴(kuò)展

問:哈薩比斯今年3月在劍橋的一次演講中說,AlphaGo項(xiàng)目未來的目標(biāo)之一是解釋神經(jīng)網(wǎng)絡(luò)。我的問題是:ALphaGo在神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)上有什么進(jìn)步,還是說神經(jīng)網(wǎng)絡(luò)對AlphaGo來說還是一個神秘的黑匣子?

大衛(wèi)·西爾弗:不僅僅是ALphaGo,可解釋性在我們所有的項(xiàng)目中都是一個非常有趣的話題。Deepmind中有許多團(tuán)隊(duì)以不同的方式探索我們的系統(tǒng)。最近有團(tuán)隊(duì)發(fā)表了一篇基于認(rèn)知心理學(xué)技術(shù)的破解匹配網(wǎng)絡(luò)中發(fā)生的事情的嘗試,效果很好!

問:很高興看到AlphaGo Zero的好成績。我們的一篇NIPS論文也提到了深度學(xué)習(xí)和搜索樹的類似效率,所以我對較長訓(xùn)練過程中的行為特別感興趣。

在AlphaGo的訓(xùn)練過程中,蒙特卡洛樹搜索創(chuàng)建學(xué)習(xí)目標(biāo)的貪婪算法、策略網(wǎng)絡(luò)的貪婪算法和價值函數(shù)變化的貪婪算法在訓(xùn)練過程中的相對表現(xiàn)如何?這種自學(xué)游戲的方法可以應(yīng)用到最近的星際爭霸2 API嗎?

大衛(wèi)·西爾弗:謝謝你介紹你的論文!我不敢相信這篇論文是在我們4月7日提交的時候發(fā)表的。其實(shí)和我們學(xué)習(xí)算法的策略成分很像(雖然我們也有價值成分)。你可以參考我們的方法和強(qiáng)化學(xué)習(xí)中的討論,你很高興看到其他游戲中也使用了類似的方法。

問:為什么早期版本的AlphaGo不嘗試自己玩?或者說,AlphaGo之前也嘗試過玩自我游戲,但是效果不好?

很好奇這個領(lǐng)域的發(fā)展和進(jìn)步。和今天相比,兩年前設(shè)計一款帶自我訓(xùn)練的AlphaGo的瓶頸是什么?我們今天看到的“機(jī)器學(xué)習(xí)直覺”經(jīng)歷了怎樣的系統(tǒng)迭代過程?

David_Silver:創(chuàng)建自主學(xué)習(xí)體系一直是加強(qiáng)學(xué)習(xí)的開放性問題。我們最初的嘗試包括很多你能找到的類似算法,都是相當(dāng)不穩(wěn)定的。我們做了很多嘗試,最后AlphaGo Zero算法是最有效的,似乎解決了這個具體問題。

問:你認(rèn)為機(jī)器人什么時候能有效解決現(xiàn)實(shí)世界中的身高和體型問題(比如學(xué)習(xí)如何抓取任何形狀、大小和位置的垃圾)?戰(zhàn)略梯度法是實(shí)現(xiàn)這個目標(biāo)的關(guān)鍵點(diǎn)嗎?

Julian Schrittwieser:這主要是因?yàn)閮r值/政策網(wǎng)絡(luò)上的雙重提升,包括更好的培訓(xùn)和更好的架構(gòu)。不同網(wǎng)絡(luò)架構(gòu)的比較請參見圖4。

問:據(jù)說柯潔打ALphaGo大師的功耗只有李世石打AlphaGo李的十分之一。你做過什么樣的優(yōu)化?

Julian Schrittwieser:這主要是因?yàn)閮r值/政策網(wǎng)絡(luò)上的雙重提升,包括更好的培訓(xùn)和更好的架構(gòu)。不同網(wǎng)絡(luò)架構(gòu)的比較請參見圖4。(雷鋒。com Press:你確定不是文案最后一個問題的答案?)

問:在強(qiáng)化學(xué)習(xí)中使用或模擬Agent的長期記憶似乎是一個很大的障礙。展望未來,你認(rèn)為我們能以新的思維方式解決這個問題嗎?還是要等我們的技術(shù)實(shí)現(xiàn)超級網(wǎng)絡(luò)?

朱利安·施里特維瑟:是的,長期記憶可能是一個重要因素。比如星際爭霸游戲,你可能做了上千次動作,但還是要記住你派出的斥候。

我覺得現(xiàn)在有令人興奮的組件(神經(jīng)圖靈機(jī)!),但我覺得我們在這方面還是有很大的提升空。

大衛(wèi),我看過你的演講視頻。你提到強(qiáng)化學(xué)習(xí)可以用于金融交易。有沒有現(xiàn)實(shí)世界的例子?你會如何處理黑天鵝事件(一件你從未遇到過的事情)?

David_Silver:已發(fā)表的關(guān)于為現(xiàn)實(shí)世界增強(qiáng)學(xué)習(xí)金融算法的論文非常少,但是有一些經(jīng)典的論文值得一看,比如2006年Nevmyvaka和Kearns寫的,2001年Moody和Safell寫的。

問:你和Facebook幾乎同時學(xué)習(xí)圍棋。你更快獲得高手表現(xiàn)的優(yōu)勢是什么?

對于那些得不到AlphaGo那么多訓(xùn)練數(shù)據(jù)的領(lǐng)域,如何進(jìn)行機(jī)器學(xué)習(xí)或者增強(qiáng)學(xué)習(xí)?

David _ Silver: Facebook更注重監(jiān)督學(xué)習(xí),我們選擇更注重強(qiáng)化學(xué)習(xí),因?yàn)槲覀兿嘈臕lphaGo最終會超越人類的知識。我們最近的結(jié)果實(shí)際上表明,監(jiān)督學(xué)習(xí)可以令人驚訝,但強(qiáng)化學(xué)習(xí)絕對是遠(yuǎn)遠(yuǎn)超出人類水平的關(guān)鍵點(diǎn)。

1.《deepmind Deepmind AMA:你想了解的關(guān)于Deepmind的一切都在這里了!》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《deepmind Deepmind AMA:你想了解的關(guān)于Deepmind的一切都在這里了!》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí),對其原創(chuàng)性、真實(shí)性、完整性、及時性不作任何保證。

3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/tiyu/820087.html

上一篇

胖五 “胖五”有多強(qiáng)?這六大數(shù)字不得不提

下一篇

一籠小確幸 “一籠小確幸”創(chuàng)始人首度回應(yīng)因食安問題上海閉店

知名童裝企業(yè) 深度解析意大利兩大知名百貨公司童裝經(jīng)營策略

  • 知名童裝企業(yè) 深度解析意大利兩大知名百貨公司童裝經(jīng)營策略
  • 知名童裝企業(yè) 深度解析意大利兩大知名百貨公司童裝經(jīng)營策略
  • 知名童裝企業(yè) 深度解析意大利兩大知名百貨公司童裝經(jīng)營策略

湯暉 京東健康與湯臣倍健達(dá)成深度戰(zhàn)略合作,強(qiáng)強(qiáng)聯(lián)合共創(chuàng)健康新時代

2019年11月15日,JD.COM健康與湯臣邊建在北京JD.COM集團(tuán)總部舉行了2020年戰(zhàn)略合作簽約儀式,開啟了雙方全方位合作的新篇章。JD.COM集團(tuán)副總裁、JD.COM健康首席執(zhí)行官辛立軍、湯臣邊建藥業(yè)股份有限公司董事長唐慧出席會議。在簽約現(xiàn)場,圖為JD.C...

aipark AIpark再中標(biāo)石景山停車項(xiàng)目二期 深度助力區(qū)內(nèi)路側(cè)停車改革

近日,北京市石景山區(qū)道路停車電子收費(fèi)前端設(shè)備二期建設(shè)項(xiàng)目發(fā)布中標(biāo)公告,愛園憑借全球領(lǐng)先的高水平視頻圖像識別技術(shù)再次中標(biāo)。這是愛園中標(biāo)北京九大城區(qū)道路停車改革相關(guān)項(xiàng)目后,再次得到首都停車管理部門和廣大市民的認(rèn)可。值得一提的是,這也是愛園對朝陽區(qū)和海淀區(qū)停車項(xiàng)目二期的競...

阿里巴巴私有化 市值4700億美金的阿里巴巴8次融資歷程、股權(quán)結(jié)構(gòu)演變深度解析

  • 阿里巴巴私有化 市值4700億美金的阿里巴巴8次融資歷程、股權(quán)結(jié)構(gòu)演變深度解析
  • 阿里巴巴私有化 市值4700億美金的阿里巴巴8次融資歷程、股權(quán)結(jié)構(gòu)演變深度解析
  • 阿里巴巴私有化 市值4700億美金的阿里巴巴8次融資歷程、股權(quán)結(jié)構(gòu)演變深度解析
中國十大衛(wèi)浴 中國十大智能衛(wèi)浴品牌?智能衛(wèi)浴有哪些種類?

中國十大衛(wèi)浴 中國十大智能衛(wèi)浴品牌?智能衛(wèi)浴有哪些種類?

智能衛(wèi)浴目前比較流行,因?yàn)槭褂闷饋矸浅7奖?,所以很多人想知道國?nèi)十大智能衛(wèi)浴品牌。只有了解品牌的衛(wèi)浴品牌,才能讓他們在使用時更加放心。同時要知道什么是智能衛(wèi)浴,因?yàn)橹悄苄l(wèi)浴的種類很多,所以在購買之前要有一定的了解。  中國十大智能衛(wèi)浴品牌? 1.九木jomoo(中國...

南京溧水地震 南京溧水地震2.8級 震源深度9千米

中國地震臺網(wǎng)正式確定,02年3月8日08時11分,江蘇省南京市溧水區(qū)發(fā)生2.8級地震,震源深度9公里。目前,南京和麗水電網(wǎng)保持了安全穩(wěn)定運(yùn)行,沒有受到影響。南京供電公司立即啟動應(yīng)急預(yù)案,加強(qiáng)電網(wǎng)巡視和搶修準(zhǔn)備。...

煞筆 汪涵不帶臟字罵煞筆堪稱經(jīng)典(機(jī)智救場深度解讀)