據(jù)雷介紹,2018年全球人工智能與機(jī)器人峰會在深圳舉行。峰會由中國計(jì)算機(jī)學(xué)會主辦,雷和香港中文大學(xué)協(xié)辦。
會議吸引了來自人工智能行業(yè)的2500多人,包括來自世界各地在人工智能領(lǐng)域享有盛譽(yù)的140名演講者和圓桌嘉賓。
在會議第二天的“計(jì)算機(jī)視覺特別會議”上,2011、2022總裁全龍、微軟亞洲研究院副院長張、飛利浦中國CTO、迪法恩科技首席科學(xué)家、7項(xiàng)大獎獲得者田杰、最高國際醫(yī)學(xué)影像分析會議MICCAI 2019聯(lián)席主席沈丁剛等發(fā)表了重要講話。
其中,上湯科技聯(lián)合創(chuàng)始人、香港中湯聯(lián)合實(shí)驗(yàn)室主任華教授分享了在計(jì)算機(jī)視覺研究方面的新探索。
林大華在講話中對計(jì)算機(jī)視覺這幾年的發(fā)展進(jìn)行了總結(jié)、反思和展望。他說,深度學(xué)習(xí)開啟了計(jì)算機(jī)視覺發(fā)展的黃金時(shí)代。近年來,計(jì)算機(jī)視覺取得了很大的進(jìn)步,但這種發(fā)展是廣泛的,堆積了大量的數(shù)據(jù)和計(jì)算資源。這種發(fā)展模式能否持續(xù),值得深思。
他指出,隨著計(jì)算機(jī)視覺精度的巔峰,行業(yè)應(yīng)該尋求更多的發(fā)展水平。商湯的主要嘗試有三:一是提高計(jì)算資源的效率;二是降低數(shù)據(jù)資源的標(biāo)注成本;第三,提高人工智能的質(zhì)量。
以下是林大華演講的全部內(nèi)容。雷鋒。com在不改變初衷的情況下對其進(jìn)行了組織和編輯:
很榮幸與大家分享香港中商堂聯(lián)合實(shí)驗(yàn)室過去幾年的工作。剛才幾位發(fā)言人從商業(yè)角度做了精彩的分享。相信大家都受益匪淺。我的發(fā)言可能有點(diǎn)不一樣。我是商湯的聯(lián)合創(chuàng)始人,但不直接參與商湯的業(yè)務(wù)運(yùn)營。如果大家都關(guān)心商湯什么時(shí)候上市,恐怕我回答不了。
但是我可以告訴你,商湯公司不是一天建成的。它的成功不僅取決于過去三年半的努力,還取決于實(shí)驗(yàn)室18年積累的原始技術(shù)。這個實(shí)驗(yàn)室做的事情決定的不是商湯今天拿出來盈利的東西;但商湯要想成為一家偉大的科技公司,未來3年、5年甚至10年應(yīng)該往哪個方向發(fā)展。
人工智能發(fā)展迅速,但發(fā)展廣泛
下圖想必大家都很熟悉。
在過去的八年里,計(jì)算機(jī)視覺取得了突破,其中最重要的技術(shù)進(jìn)步是引入了深度學(xué)習(xí)。這個領(lǐng)域有一個非常高水平的競爭——ImageNet。2012年之前,這個比賽的識別錯誤率比較高。2012年引入深度學(xué)習(xí)技術(shù)后,計(jì)算機(jī)視覺經(jīng)歷了四年的黃金時(shí)期。在四年的黃金時(shí)期,Image Net比賽的識別錯誤率從20%下降到近3%,然后停滯不前,直到去年比賽結(jié)束。
所以,我想問一個問題:深度學(xué)習(xí)確實(shí)推動了計(jì)算機(jī)視覺在近幾年的黃金時(shí)期有了長足的進(jìn)步和突破,但這是否意味著計(jì)算機(jī)視覺發(fā)展到今天的水平已經(jīng)走到了盡頭?在今天的基礎(chǔ)上展望3年、5年、10年,未來應(yīng)該向哪個方向?qū)W習(xí)?這是我們實(shí)驗(yàn)室和商湯一直在思考的問題。
人工智能這幾年的成功不是偶然的,它不僅是算法發(fā)展的結(jié)果,也是很多因素歷史趨同的結(jié)果。第一個因素是數(shù)據(jù)。我們有大量的數(shù)據(jù)。第二個因素是GPU的發(fā)展,推動計(jì)算能力大幅躍升。在數(shù)據(jù)和計(jì)算能力的基礎(chǔ)上,算法的進(jìn)步帶來了今天人工智能的成功和它在許多應(yīng)用場景中的落地。我想傳達(dá)給你的信息是,雖然我們看到了人工智能的成功和算法的巨大進(jìn)步,但人工智能不是魔法,從某種意義上說,它是由巨大的數(shù)據(jù)量和強(qiáng)大的計(jì)算能力支撐的性能進(jìn)步。
回顧人工智能這幾年的輝煌發(fā)展,可以看出從某種意義上來說是非常廣泛的發(fā)展。每個人都在追求準(zhǔn)確性和性能,中國公司在所有競爭名單中排名前三。雖然我們在很多榜單上,但是行業(yè)的利潤基本都是由制定標(biāo)準(zhǔn)的公司賺取的。這種發(fā)展模式可持續(xù)嗎?這個值得深思。
除了準(zhǔn)確性,我們還必須追求效率、成本和質(zhì)量
回顧這幾年深度學(xué)習(xí)或者人工智能的發(fā)展,我覺得我們還有很多事情要做,還有很長的路要走。
接下來和大家分享一下我的思考方向:第一,學(xué)習(xí)效率,我們是否充分利用現(xiàn)有的計(jì)算資源?二、如何解決數(shù)據(jù)和標(biāo)注的成本問題?第三,雖然我們在列表中達(dá)到了99.9%的準(zhǔn)確率,但是這樣訓(xùn)練出來的模型真的能滿足我們生活或者社會生產(chǎn)的需要嗎?這些都是我們需要解決的問題,以促進(jìn)人工智能更好更快的發(fā)展和落地。
下面,我先詳細(xì)說說第一個方面——效率。
前面說過,我們走的是粗放式的發(fā)展路線,依靠積累數(shù)據(jù)和計(jì)算資源來換取高性能,這是資源的競爭而不是效率的競爭。在行業(yè)發(fā)展的今天,標(biāo)準(zhǔn)制定公司賺取了大部分利潤。面對這種情況,未來應(yīng)該如何發(fā)展?要回答這個問題,首先要復(fù)習(xí)一下現(xiàn)在的機(jī)型和技術(shù)模式,看看有沒有優(yōu)化空的房間。優(yōu)化的原理很簡單,就是在刀刃上用好鋼。
舉例說明。兩年前開始進(jìn)入視頻領(lǐng)域,視頻對效率的要求非常高,因?yàn)橐曨l的數(shù)據(jù)量巨大,一秒24幀,一分鐘1500幀,相當(dāng)于一個中型數(shù)據(jù)庫。用傳統(tǒng)的圖像處理方式處理視頻顯然是不合適的。
2013年和2014年的視頻分析方法大多簡單粗暴:取出每一幀,運(yùn)行一個卷積網(wǎng)絡(luò),最后結(jié)合起來判斷。雖然計(jì)算資源在過去幾年發(fā)展迅速,但GPU內(nèi)存仍然有限。如果每一層放入CNN,GPU內(nèi)存只能容納10幀到20幀左右,一秒鐘的視頻占用GPU,無法長時(shí)間分析視頻,是一種非常低效的模式。
我們知道,視頻相鄰幀之間的重復(fù)率非常高。如果每一幀都運(yùn)行一次,實(shí)際上浪費(fèi)了大量的計(jì)算資源。意識到這種重復(fù)計(jì)算模式的低效率,我們把采樣方式改為稀疏采樣:不管視頻有多長,都分成等長的段落,每個段落只占用一幀。這樣可以及時(shí)完整的覆蓋視頻,分析結(jié)果自然具有更高的可靠性和準(zhǔn)確性。有了這個網(wǎng)絡(luò),我們獲得了2016年的ActivityNet冠軍。現(xiàn)在大多數(shù)視頻分析架構(gòu)都采用了這種稀疏采樣方法。
之后,我們進(jìn)一步拓展研究領(lǐng)域,不僅要做視頻理解,還要做視頻中的物體檢測。這就帶來了新的挑戰(zhàn):在做分類識別之前,可以對每一段進(jìn)行分段,大致了解;但是物體檢測做不到這一點(diǎn),每一幀的物體位置都必須輸出,不能在時(shí)間上稀疏。
下圖是我們在2016年ImageNet大賽中獲得視頻對象檢測項(xiàng)目稱號的網(wǎng)絡(luò)。這個網(wǎng)絡(luò)的做法基本上是把每個幀的特征拿出來,判斷其類型是什么,調(diào)整對象幀的位置,然后串在一起。每一幀都需要處理。當(dāng)時(shí)最強(qiáng)大的GPU每秒只能處理幾幀,需要大量的GPU來訓(xùn)練這個網(wǎng)絡(luò)。
我們希望將這樣的技術(shù)應(yīng)用到實(shí)際場景中,得到一個實(shí)時(shí)的目標(biāo)檢測框架。如果按照剛才的方法處理每一幀,需要140毫秒,絕對沒有辦法達(dá)到實(shí)時(shí)。但是中間那幀呢,如果我們稀疏的取,比如說每20幀?
你可能會想到插值插入,但是我們發(fā)現(xiàn)這種方法對精度影響很大。每10幀拍一次,兩者的精度差別很大。在新提出的方法中,我們使用了幀之間的關(guān)系,通過一個便宜得多的網(wǎng)絡(luò)模塊在幀之間傳輸信息只需要5毫秒,可以很好地保持檢測精度。這樣,在我們再次改變視頻分析的路徑后,整體成本大大降低。沒有什么新鮮的,網(wǎng)絡(luò)都是那些網(wǎng)絡(luò),只是我們重新規(guī)劃了視頻分析的計(jì)算路徑,重新設(shè)計(jì)了整個框架。
可以看看結(jié)果。以上是7毫秒逐幀處理的,這是我們在2016年比賽中使用的網(wǎng)絡(luò)。后來改進(jìn)后超過每秒62幀,由于使用了多幀之間的相關(guān)性,其結(jié)果更可靠更平滑。