當前位置：首頁 > 娛樂

【王小新】加強學(xué)習(xí)新路徑：基于自我監(jiān)督預(yù)測的好奇心驅(qū)動探索(論文代碼)

2022-07-19 02:30:56 娛樂王小新

王小信編譯整理

量子比特報告|公眾號QbitAI

最近，來自加州大學(xué)伯克利分校的Deepak Pathak、Pulkit Agrawal、Alexei A. Efros等撰寫了一篇題為《基于自我監(jiān)督預(yù)測的好奇心驅(qū)動探索》的論文

論文收錄在8月11日在悉尼舉行的ICML 2017中。以下是論文的主要內(nèi)容。

摘要

在很多真實場景中，外部環(huán)境對運營商的補償很少或很少。在這種情況下，好奇心可以作為內(nèi)在的補償信號，供運營商探索未知的新環(huán)境，學(xué)習(xí)未來生活中可能有用的技術(shù)。

在這篇文章中，我們根據(jù)自己的監(jiān)督方法建立了逆動力學(xué)模型，通過訓(xùn)練獲得了視覺特征的高維空間。在這個空間里，操作員認為自己的行為能產(chǎn)生結(jié)果的能力，即預(yù)測值和實際值之間的錯誤稱為好奇心。

對于像圖像序列這樣的高維連續(xù)狀態(tài)空間，公式非常合適，可以忽略直接預(yù)測像素的問題，有選擇地忽略一些不影響操作員的環(huán)境因素。

我們評價了在兩個游戲環(huán)境中提出的方法：毀滅戰(zhàn)士(VizDoom)和超級馬里奧兄弟(Super Mario Bros)。

有三個一般的研究背景：

1.外部補償很少，與外部環(huán)境的互動遠低于預(yù)期。

2.不輸入外部補償，好奇心使經(jīng)營者的探索更加有效。

3.擴大到?jīng)]有接觸的場景(例如同一個游戲的新水平)，從早期經(jīng)驗中獲得知識的運營者比從一開始探索新地點的運營者學(xué)得快得多。

演示視頻

核心創(chuàng)新點

內(nèi)部好奇心單位：為了讓運營者導(dǎo)航，提出了內(nèi)部好奇心單位。在很少或完全沒有外部補償?shù)那闆r下，好奇心有助于運營商理解新環(huán)境。

即使沒有從外部環(huán)境得到任何補償，我們提出的內(nèi)心好奇心單位也可以結(jié)合運營商的戰(zhàn)略進行共同學(xué)習(xí)。模型圖如下圖所示。

相關(guān)鏈接

紙張：

GitHub編碼：

[結(jié)束]

招聘

楊子偉正在招聘編輯記者、運營、產(chǎn)品等職位，工作地點在北京中關(guān)村。詳情請在公眾號對話界面回答“招聘”。

One More Thing .……。

今天AI界還有什么值得注意的？在楊子偉(QbitAI)公眾號對話界面回答“今天”，我們來看看整個互聯(lián)網(wǎng)搜索的AI產(chǎn)業(yè)和研究動向。(威廉莎士比亞。)筆芯啊~

1.《【王小新】加強學(xué)習(xí)新路徑：基于自我監(jiān)督預(yù)測的好奇心驅(qū)動探索(論文代碼)》援引自互聯(lián)網(wǎng)，旨在傳遞更多網(wǎng)絡(luò)信息知識，僅代表作者本人觀點，與本網(wǎng)站無關(guān)，侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《【王小新】加強學(xué)習(xí)新路徑：基于自我監(jiān)督預(yù)測的好奇心驅(qū)動探索(論文代碼)》僅供讀者參考，本網(wǎng)站未對該內(nèi)容進行證實，對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。

3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址，http://f99ss.com/yule/2504850.html

丝袜人妻一区二区三区_少妇福利无码视频_亚洲理论片在线观看_一级毛片国产A级片

【王小新】加強學(xué)習(xí)新路徑：基于自我監(jiān)督預(yù)測的好奇心驅(qū)動探索(論文代碼)

【明月心是誰演的】未來型90多歲的新一代樂隊發(fā)條達，心臟是二維的，充滿星星海洋

【北京青年葉坦】和張麗朱振毛分手了！扒手《北京青年》五代女主角鑒定現(xiàn)狀

丝袜人妻一区二区三区_少妇福利无码视频_亚洲理论片在线观看_一级毛片国产A级片

【王小新】加強學(xué)習(xí)新路徑：基于自我監(jiān)督預(yù)測的好奇心驅(qū)動探索(論文代碼)

【明月心是誰演的】未來型90多歲的新一代樂隊發(fā)條達，心臟是二維的，充滿星星海洋

【北京青年葉坦】和張麗朱振毛分手了！扒手《北京青年》五代女主角鑒定現(xiàn)狀

【明月心是誰演的】未來型90多歲的新一代樂隊發(fā)條達，心臟是二維的，充滿星星海洋