王小信編譯整理
量子比特報告|公眾號QbitAI
最近,來自加州大學(xué)伯克利分校的Deepak Pathak、Pulkit Agrawal、Alexei A. Efros等撰寫了一篇題為《基于自我監(jiān)督預(yù)測的好奇心驅(qū)動探索》的論文
論文收錄在8月11日在悉尼舉行的ICML 2017中。以下是論文的主要內(nèi)容。
摘要
在很多真實場景中,外部環(huán)境對運營商的補償很少或很少。在這種情況下,好奇心可以作為內(nèi)在的補償信號,供運營商探索未知的新環(huán)境,學(xué)習(xí)未來生活中可能有用的技術(shù)。
在這篇文章中,我們根據(jù)自己的監(jiān)督方法建立了逆動力學(xué)模型,通過訓(xùn)練獲得了視覺特征的高維空間。在這個空間里,操作員認為自己的行為能產(chǎn)生結(jié)果的能力,即預(yù)測值和實際值之間的錯誤稱為好奇心。
對于像圖像序列這樣的高維連續(xù)狀態(tài)空間,公式非常合適,可以忽略直接預(yù)測像素的問題,有選擇地忽略一些不影響操作員的環(huán)境因素。
我們評價了在兩個游戲環(huán)境中提出的方法:毀滅戰(zhàn)士(VizDoom)和超級馬里奧兄弟(Super Mario Bros)。
有三個一般的研究背景:
1.外部補償很少,與外部環(huán)境的互動遠低于預(yù)期。
2.不輸入外部補償,好奇心使經(jīng)營者的探索更加有效。
3.擴大到?jīng)]有接觸的場景(例如同一個游戲的新水平),從早期經(jīng)驗中獲得知識的運營者比從一開始探索新地點的運營者學(xué)得快得多。
演示視頻
核心創(chuàng)新點
內(nèi)部好奇心單位:為了讓運營者導(dǎo)航,提出了內(nèi)部好奇心單位。在很少或完全沒有外部補償?shù)那闆r下,好奇心有助于運營商理解新環(huán)境。
即使沒有從外部環(huán)境得到任何補償,我們提出的內(nèi)心好奇心單位也可以結(jié)合運營商的戰(zhàn)略進行共同學(xué)習(xí)。模型圖如下圖所示。
相關(guān)鏈接
紙張:
GitHub編碼:
[結(jié)束]
招聘
楊子偉正在招聘編輯記者、運營、產(chǎn)品等職位,工作地點在北京中關(guān)村。詳情請在公眾號對話界面回答“招聘”。
One More Thing .……。
今天AI界還有什么值得注意的?在楊子偉(QbitAI)公眾號對話界面回答“今天”,我們來看看整個互聯(lián)網(wǎng)搜索的AI產(chǎn)業(yè)和研究動向。(威廉莎士比亞。)筆芯啊~
1.《【王小新】加強學(xué)習(xí)新路徑:基于自我監(jiān)督預(yù)測的好奇心驅(qū)動探索(論文代碼)》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《【王小新】加強學(xué)習(xí)新路徑:基于自我監(jiān)督預(yù)測的好奇心驅(qū)動探索(論文代碼)》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/yule/2504850.html