近日,在中國科學(xué)技術(shù)協(xié)會、中國科學(xué)院的指導(dǎo)下,由中國人工智能學(xué)會、阿里巴巴集團 螞蟻金服主辦,CSDN、中國科學(xué)院自動化研究所承辦的 2017 中國人工智能大會(CCAI 2017)在杭州國際會議中心盛大召開。
在大會的智能金融論壇上,普林斯頓大學(xué)運籌與金融工程系助理教授王夢迪女士分享了增強學(xué)習(xí)在金融研究上的最新進展。
王夢迪表示,增強學(xué)習(xí)是人工智能的未來,應(yīng)當(dāng)同古老的控制論思想結(jié)合起來,用大數(shù)據(jù)的方法來探索一個復(fù)雜系統(tǒng)的動態(tài)過程。
以下是王夢迪的演講實錄,AI科技大本營做了不改變原意的整理:
非常感謝組委會的邀請,很高興能在杭州跟大家分享我們在科研上的一些進展。
我自己是做快速機器學(xué)習(xí)算法和復(fù)雜度出身的。但是現(xiàn)在包括我在內(nèi)的很多做人工智能的朋友,最感興趣的是增強學(xué)習(xí)。增強學(xué)習(xí)是人工智能的未來,為什么會這么說?我們來簡單回顧一下人工智能的歷史。
人工智能的歷史回顧
在“人工智能”這個詞出現(xiàn)之前,其實從某種程度上來講,它已經(jīng)存在了,當(dāng)時我們稱之為Control Theory(控制論)。那個時候還沒有計算機,但是有紙、有筆,當(dāng)時利用控制論可以對簡單的機械裝置進行控制,比如小車、液壓系統(tǒng)?;蛘吒M一步,在有了電之后,就可以對電氣進行控制,以及后來的流水自動化系統(tǒng)、航空航天技術(shù)、導(dǎo)彈制導(dǎo)技術(shù)等等。它們之所以能夠成功,都是因為有控制論,這是人工智能的雛形。
控制論的核心思路在于,對于一個已知的系統(tǒng),機械系統(tǒng)、或者電氣系統(tǒng),我們可以用微分方程完整地描述它,這時候我們可以設(shè)計一套反饋的機制,用這套機制來實現(xiàn)我們的目的。這就是控制論,是人工智能的史前時代。
當(dāng)代人工智能的發(fā)展主要基于最近二三十年機器學(xué)習(xí)領(lǐng)域的突破。我們現(xiàn)在之所以能坐在這里談?wù)摍C器學(xué)習(xí),是因為首先有了計算機,然后有互聯(lián)網(wǎng),才能讓互聯(lián)網(wǎng)驅(qū)動計算機進行學(xué)習(xí)。
機器學(xué)習(xí)的核心問題是什么?我舉幾個例子:
我們看一張圖片、一段視頻,我們希望知道這張圖片或者這段視頻說明了什么,能夠表達出它的意思。
我們看大腦的掃描圖,希望通過這個圖片識別出來哪兩個腦區(qū)有非常強的聯(lián)系,這樣可以幫助生物學(xué)家和科學(xué)家研究大腦工作的機理。
看人的眼睛,可以通過一個人的虹膜判斷一個人的身份,通過虹膜識別這個人。
我們看一張圖片、一段視頻,我們希望知道這張圖片或者這段視頻說明了什么,能夠表達出它的意思。
我們看大腦的掃描圖,希望通過這個圖片識別出來哪兩個腦區(qū)有非常強的聯(lián)系,這樣可以幫助生物學(xué)家和科學(xué)家研究大腦工作的機理。
看人的眼睛,可以通過一個人的虹膜判斷一個人的身份,通過虹膜識別這個人。
這些都是非常有趣的前沿應(yīng)用,它們的特點是基于大數(shù)據(jù)和大規(guī)模樣本,去尋找事物之間靜態(tài)的映射關(guān)系。
增強學(xué)習(xí)
再接下來是什么?是增強學(xué)習(xí),或者說是深度增強學(xué)習(xí)。我們希望將史前時代和當(dāng)代的最核心的技術(shù)以及最先進的思想結(jié)合起來,探索一個復(fù)雜的動態(tài)系統(tǒng),用大數(shù)據(jù)的方法探索一個動態(tài)的過程,而不僅僅是靜態(tài)的關(guān)系。
什么是增強學(xué)習(xí)?抽象來講,德州撲克機器人就在做增強學(xué)習(xí)。機器人是一段算法,或者一段代碼,它需要與復(fù)雜的環(huán)境進行交互,這個復(fù)雜的環(huán)境可能就是網(wǎng)上的牌局,這個復(fù)雜的環(huán)境里就會涉及到其他機器人玩家和其他真人玩家。
機器人剛開始經(jīng)驗有限,所以它需要不斷地嘗試來總結(jié)歸納出游戲的規(guī)則。隨著機器人不斷地嘗試和試探,它也能夠從牌局的真實發(fā)展中得到很多信息,并根據(jù)反饋來更新自己內(nèi)在的一些記錄,這個就是增強學(xué)習(xí)。
簡單來說,就是我們用智能算法在線學(xué)習(xí)復(fù)雜的系統(tǒng),并且實現(xiàn)對它的最優(yōu)控制。這個問題非常難,比如說著名的AlphaGo。圍棋非常難,因為它涉及的可能性非常多。機器人非常難,一是它的系統(tǒng)非常復(fù)雜,復(fù)雜到不能用微分方程描述。自動駕駛也是很難的問題,難在它涉及到多種不同技術(shù)的融合,還涉及到很多外在環(huán)境的變化等等。所以這就是增強學(xué)習(xí)要解決的問題。
增強學(xué)習(xí)的核心技術(shù)
這里面的主要技術(shù)是什么?
它涉及到方方面面的技術(shù),從系統(tǒng)到算法到機器學(xué)習(xí)里面的一些核心思想,這里面最重要的是怎樣對一個復(fù)雜的系統(tǒng)進行降維和歸納。在這一塊,機器學(xué)習(xí)的技術(shù)可以在增強學(xué)習(xí)里面發(fā)揮巨大的作用,可以認為機器學(xué)習(xí)的成功是增強學(xué)習(xí)未來的成功的重要一步。
我們還需要神經(jīng)網(wǎng)絡(luò),需要深度學(xué)習(xí),需要用深度學(xué)習(xí)的方法對策略和價值函數(shù)進行建模,同時讓價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)進行對抗式地共同學(xué)習(xí),最終目的是希望利用神經(jīng)網(wǎng)絡(luò)模擬人腦的總結(jié)歸納的能力。此外在算法層面,甚至在硬件層面,我們需要大規(guī)模的分層的并列計算,在硬件層面,我們需要GPU等等。
增強學(xué)習(xí)的應(yīng)用
游戲人工智能
有了這些技術(shù)我們能干什么?
首先必須強調(diào)的是增強學(xué)習(xí)或者說人工智能現(xiàn)在還處于嬰幼兒時期?,F(xiàn)在世界上最前沿的做增強學(xué)習(xí)的公司可能是Google的Deep Mind,他們希望把每一種電腦游戲都用增強學(xué)習(xí)求解。我們?yōu)槭裁匆P(guān)心游戲?人在發(fā)展自己的智能的過程中,是通過游戲的方法來學(xué)習(xí)的,人工智能也是,這也是為什么人工智能在學(xué)習(xí)打一些簡單的游戲,一直到越來越難的游戲,最終要解決更難的問題。
高頻量化交易和錢化策略
另外一個和金融相關(guān)應(yīng)用的是高頻量化交易。如果在股票市場上進行高頻量化交易,比如毫秒級、微秒級的交易,這時傳統(tǒng)交易中的方法可能就不太好用了。為什么?也許我可以精算預(yù)測在接下來的5毫秒價格會往上走,但是市場上其他微觀結(jié)構(gòu)讓我不能馬上去交易,一旦我交易,就會產(chǎn)生未知的擾動,反而不能獲利。這說明未知的人的操作會對微觀市場造成影響,而且這種影響不能歷史數(shù)據(jù)回測,必須用在線的方法去學(xué),交易員跟德州撲克的牌手一樣,需要在線去尋找更好的策略。
在金融以外,人工智能還有很多的應(yīng)用,比如說醫(yī)療領(lǐng)域,我們可以從病人的病例中總結(jié)出一個病人的病理的發(fā)展規(guī)律,幫助醫(yī)生更好地做決策。
智能金融,未來大有作為
最后,這是一個非常非常新,而且也非常有前景的領(lǐng)域,所有事情都發(fā)生很快。比如說在算法層面,半年前要解一個游戲,可能需要32核的GPU跑兩三天,今天同樣一個游戲,可能一個CPU幾個小時就搞定了。
在系統(tǒng)層面,伯克利大學(xué)剛剛開發(fā)出的并行GPU的計算系統(tǒng),可以讓本來不能夠并行、非同步進行的運算可以非??斓卮笠?guī)模同步。
在更底層的硬件層面,還有很多的公司,包括英特爾在做專門加速深度學(xué)習(xí)的元件。
無論是硬件系統(tǒng)還是算法層面,這個領(lǐng)域都發(fā)展飛速,我們有理由相信它在未來可以完成很多意想不到的事情,謝謝大家!
更多資訊請關(guān)注微信公眾平臺AI科技大本營(ID:rgznai100)
1.《普林斯頓大學(xué)王夢迪:增強學(xué)習(xí)是人工智能的未來》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《普林斯頓大學(xué)王夢迪:增強學(xué)習(xí)是人工智能的未來》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/yule/9087.html