晚上夏天乙腳從凹陷的秘史里出來了。
量子比特報(bào)告|公眾號QbitAI
5個(gè)手指,24個(gè)關(guān)節(jié),這個(gè)機(jī)器人從結(jié)構(gòu)到大小在所有方面都非常像人類的手。
在OpenAI的實(shí)驗(yàn)室里,它緩緩 盤著核桃 轉(zhuǎn)動(dòng)著一個(gè)木塊。沒有人告訴它該動(dòng)哪根指頭,驅(qū)使它的,是在模擬器里訓(xùn)練出來的強(qiáng)化學(xué)習(xí)算法。
這套靈巧的系統(tǒng),叫做Dactyl。
它可以把一個(gè)正方體,轉(zhuǎn)到指定的方向。
沒有人指揮它,哪根手指往哪個(gè)方向用力,收到的指令只是木塊的朝向 (I在前,E在左,N在上) 而已。
當(dāng)然,動(dòng)作并不像人類盤核桃那樣一氣呵成,機(jī)器人要一步一步來。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程中,自學(xué)了許多不同的分解動(dòng)作。比如上圖,用兩個(gè)手指輕輕夾住方塊,再用其他手指撥一撥,方塊就轉(zhuǎn)起來了。
再比如,推著方塊在掌心滑動(dòng) (Sliding) 。還有,底面用不離開手心,但方塊依然水平轉(zhuǎn)動(dòng) (Finger Gaiting) ,堪稱盤核桃的核心技巧。
這些技能,Dactyl都是在模擬器里學(xué)會的。不過,它能順利地把技能遷到現(xiàn)實(shí)世界,就算物體不是方塊,也能隨機(jī)應(yīng)變。
從二指夾具到五指機(jī)械手
如果你關(guān)注機(jī)器人技能的進(jìn)展,大概會發(fā)現(xiàn)這樣的機(jī)械手,遠(yuǎn)不如兩根指頭的夾子常見。
各大門派都在用二指夾具,通過各種方法學(xué)習(xí)著抓取、放置、橫掃等動(dòng)作。
比如OpenAI自己,就展示過二指夾具的抓東西扔?xùn)|西技能:
Google,曾經(jīng)出動(dòng)了大量的二指夾具來學(xué)習(xí)抓?。?/p>
在李飛飛夫婦實(shí)驗(yàn)室學(xué)習(xí)抓錘子的機(jī)器人,也同樣是兩根手指:
控制相對簡單,成本相對低廉,對于那些靠抓住、放開就能解決的問題來說,機(jī)械臂的確是個(gè)好選擇。
但面對文章開頭展示的那些復(fù)雜動(dòng)作,兩根指頭就先天不足了。
更何況,人類對于和自己相似的物體,有著迷之熱情的追求。
像人手一樣的機(jī)械手發(fā)展得如何呢?雖說已經(jīng)出現(xiàn)了幾十年,但它們操縱物體的能力一直很有限。
OpenAI說,要靠傳統(tǒng)的機(jī)器人學(xué)方法來解決靈巧操控問題,太慢了。
《紐約時(shí)報(bào)》說,按傳統(tǒng)的方法,機(jī)械手只能做大量工程師編了程的事情。
現(xiàn)在,OpenAI展示了機(jī)械手自己學(xué)習(xí)更復(fù)雜的操作的能力。
他們所用的這只結(jié)構(gòu)上高度仿真的手,來自英國Shadow Robot公司。
在這只手上,OpenAI花了大價(jià)錢。Shadow官方網(wǎng)站沒有明碼標(biāo)價(jià),而根據(jù)機(jī)器人網(wǎng)站Android World顯示,買這樣一只機(jī)械手要花掉119700美元,差一點(diǎn)點(diǎn)就到了12萬。
不讓它多掌握點(diǎn)技能,哪對得起這12萬刀。OpenAI要教這只機(jī)械手來轉(zhuǎn)動(dòng)各種各樣的物體,每一種形狀都重新編程當(dāng)然不行。
另外,這只手有24個(gè)自由度,要控制的維度就比傳統(tǒng)7自由度機(jī)械臂多了兩倍。
OpenAI還想讓它在真正的現(xiàn)實(shí)世界中工作,于是,傳感器獲取的信息又嘈雜又有延遲,有時(shí)候,當(dāng)一個(gè)指尖的傳感器被其他指頭擋住,算法還得靠不完整的信息來運(yùn)轉(zhuǎn)。
面對種種困難和5根“手指”,他們祭出了前不久訓(xùn)練AI打DotA2所用的算法。
OpenAI Five,跨界了。
盤核桃技能習(xí)得之路
Dactyl模型里,有兩個(gè)神經(jīng)網(wǎng)絡(luò)各司其職:一是視覺網(wǎng)絡(luò),二是控制網(wǎng)絡(luò)。
簡單來說,要了解物體的情況,再把它轉(zhuǎn)到對的方向。
兩個(gè)網(wǎng)絡(luò),都是為了隨機(jī)應(yīng)變而生,用的方法叫做“域隨機(jī)化 (Domain Randomization) ”。
控制網(wǎng)絡(luò)
先來說控制網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)是在MoJoCo物理引擎里面,搭了個(gè)模擬器來訓(xùn)練的。
不過,研究人員并不希望AI過度依賴物理原理。因?yàn)椋瑐鞲衅鞯臏y量數(shù)據(jù)可能嘈雜,也可能有延時(shí),且隨著時(shí)間的推移,機(jī)器人會受傷會老化,物理性質(zhì)也會發(fā)生變化。
而要把技能推廣到真實(shí)環(huán)境,就更加需要應(yīng)付多變的環(huán)境。
所以,這個(gè)模擬器只是對物理世界的一個(gè)“粗略近似 (Coarse Approximation) ”。
除此之外,為了培養(yǎng)AI的應(yīng)變能力,模擬器提供了各種各樣的場景,物體的物理性質(zhì)和外觀都可以發(fā)生非常豐富的變化。
如果,一個(gè)強(qiáng)化學(xué)習(xí)策略,在所有的模擬場景里,都能完成任務(wù),那么它到了真實(shí)世界,也更容易來者不拒。
這也不是全部,團(tuán)隊(duì)希望機(jī)器人可以在不同環(huán)境下,選擇不同的動(dòng)作來執(zhí)行任務(wù),于是用了LSTM來賦予AI一些記憶。沒有這些記憶的話,機(jī)械手需要兩倍的轉(zhuǎn)動(dòng)次數(shù),才能把物體捧在正確的方向。
成就了刀塔AI戰(zhàn)隊(duì)的Rapid,是一個(gè)規(guī)?;慕瞬呗詢?yōu)化系統(tǒng)。在這里,Dactyl用6144個(gè)CPU核加上8個(gè)GPU,訓(xùn)練了50小時(shí),相當(dāng)于塵世的一百年。
視覺網(wǎng)絡(luò)
訓(xùn)練之初,Dactyl就是朝著“轉(zhuǎn)動(dòng)隨機(jī)物體”的目標(biāo)去的,因?yàn)槭澜缫膊皇侵挥姓襟w那樣單調(diào)。
所以,視覺的部分,用了很普通的RGB攝像頭,數(shù)據(jù)用來估計(jì)物體的位置和朝向,不需要太精確。
三枚攝像頭圍在機(jī)器人身邊,解決了模糊和遮擋的問題,足矣。
一個(gè)卷積神經(jīng)網(wǎng)絡(luò) (CNN) ,會把攝像頭拍到的視頻吃下去,估算物體的位置和方向,再用這些信息來指揮控制網(wǎng)絡(luò)選取合適的操作。
這個(gè)網(wǎng)絡(luò)的訓(xùn)練,不是在MUJOCO里,而是Unity游戲引擎,后者的視覺場景更為豐富,給了Dactyl千錘百煉的機(jī)會。
兩個(gè)網(wǎng)絡(luò)是分開訓(xùn)練的,但合體之后便能直接走進(jìn)真實(shí)世界,微調(diào)都不需要。
OpenAI踩過的坑
除了展示成果,OpenAI的科學(xué)家們還熱情地公開了采過的坑:這些方法我們試了,沒用。
坑有兩個(gè):
一是降低反應(yīng)時(shí)間。OpenAI目前設(shè)置的反應(yīng)時(shí)間是80毫秒,比人類的150-250毫秒要低,但高于神經(jīng)網(wǎng)絡(luò)25毫秒的計(jì)算時(shí)間。他們也試過把反應(yīng)時(shí)間降低到40毫秒,結(jié)果發(fā)現(xiàn),消耗的訓(xùn)練時(shí)間更長了,性能沒什么明顯提升。
二是用真實(shí)數(shù)據(jù)來訓(xùn)練視覺策略。從嘗試的結(jié)果來看,用真實(shí)數(shù)據(jù)和模型數(shù)據(jù)混合訓(xùn)練,與只用模擬數(shù)據(jù)相比成績相當(dāng),于是,他們訓(xùn)練最終的模型時(shí)就只用了模擬數(shù)據(jù)。
除此之外,在實(shí)驗(yàn)過程中,OpenAI科學(xué)家們的認(rèn)知還被顛覆了幾次:
操縱真實(shí)世界物體不是非得用觸覺傳感不可。他們發(fā)現(xiàn),用多種多樣的傳感器數(shù)據(jù),如果模擬器不能有效地對這些數(shù)據(jù)建模,還不如用少量好建模的傳感器。
為一個(gè)物體設(shè)置的隨機(jī)化,會泛化到與它性質(zhì)類似的其他物體。他們在教會系統(tǒng)操控方塊之后,又弄了個(gè)八棱柱用來訓(xùn)練新算法,在這個(gè)過程中他們發(fā)現(xiàn),為方塊設(shè)計(jì)的隨機(jī)化用起來完全沒問題。但是,換成一個(gè)球體來訓(xùn)練,就不太行了。
對于實(shí)體機(jī)器人來說,系統(tǒng)工程和算法同樣重要。他們發(fā)現(xiàn),運(yùn)行的都是一樣的策略,有一個(gè)工程師成績總是比別人好……后來,經(jīng)過對這位別人家孩子的仔細(xì)檢查,發(fā)現(xiàn)他的電腦比大家都快,掩蓋了一個(gè)bug。
傳送門
讀Paper:
博客原文:
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點(diǎn)在北京中關(guān)村。期待有才氣、有熱情的同學(xué)加入我們!相關(guān)細(xì)節(jié),請?jiān)诹孔游还娞?QbitAI)對話界面,回復(fù)“招聘”兩個(gè)字。
量子位 QbitAI · 頭條號簽約作者
?'?' ? 追蹤AI技術(shù)和產(chǎn)品新動(dòng)態(tài)
1.《怎么怎么讓方塊轉(zhuǎn)?我來告訴你答案太像人手了!OpenAI用打DOTA的算法,教會了機(jī)械手“盤核桃”》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《怎么怎么讓方塊轉(zhuǎn)?我來告訴你答案太像人手了!OpenAI用打DOTA的算法,教會了機(jī)械手“盤核桃”》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí),對其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請保留本站內(nèi)容來源地址,http://f99ss.com/gl/3060833.html