丝袜人妻一区二区三区_少妇福利无码视频_亚洲理论片在线观看_一级毛片国产A级片

當(dāng)前位置:首頁 > 話題廣場 > 問答專區(qū) > 情感

(784代表什么愛情暗示)33代表什么愛情暗示?

編輯

我知道你有沒有注意到,你的手機(jī)相冊,你所有的照片里都有什么。

不管你用的是 iPhone還是安卓,相冊都有一個(gè)搜索功能,你輸入“beach”,它能列舉所有包含海灘的照片;輸入“car”,它能列舉畫面中有汽車的照片,而且它還能識(shí)別照片中的每一個(gè)人。這是一個(gè)細(xì)思極恐的技術(shù)。計(jì)算機(jī)是怎么學(xué)會(huì)識(shí)別物體的?

我們今天要聊的這本書,叫《深度學(xué)習(xí)》。有人問,我又不搞技術(shù),為什么要了解深度學(xué)習(xí)?或許你沒意識(shí)到,深度學(xué)習(xí)已經(jīng)存在在你生活的方方面面。更重要的是,“深度學(xué)習(xí)”算法包含精妙的思想,能夠代表這個(gè)時(shí)代的精神。

你不信?來吧,一起探索一下,你身處的這個(gè)世界的另一個(gè)側(cè)面。

本文改編自得到專欄《萬維鋼·精英日課3》,已獲授權(quán),轉(zhuǎn)載請聯(lián)系原作者。萬維鋼,網(wǎng)名“同人于野”,前物理學(xué)家,現(xiàn)科學(xué)作家。

神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

為什么要了解深度學(xué)習(xí)?首先,“深度學(xué)習(xí)”現(xiàn)在太熱門了,圖形識(shí)別、語音識(shí)別、汽車導(dǎo)航全都能用上,非常值錢。

更重要的是,“深度學(xué)習(xí)”算法包含精妙的思想,能夠代表這個(gè)時(shí)代的精神。這個(gè)思想并不難,但是一旦領(lǐng)會(huì)了,你就能窺探一點(diǎn)腦神經(jīng)科學(xué)和現(xiàn)代工程學(xué)。

我將重點(diǎn)使用兩份參考資料:一個(gè)是Arstechnica網(wǎng)站近期發(fā)布的一篇文章《計(jì)算機(jī)圖形識(shí)別能力如何好到令人震驚》,作者是蒂莫西·李(Timothy Lee)。 一個(gè)是一本新書《深度學(xué)習(xí):智能時(shí)代的核心驅(qū)動(dòng)力量》,作者是特倫斯·謝諾夫斯基(Terrence Sejnowski),中信出版社剛剛出了中文版。

《深度學(xué)習(xí):智能時(shí)代的核心驅(qū)動(dòng)力量》

特倫斯·謝諾夫斯基 著

不知道你注意到?jīng)]有,你的手機(jī)相冊,知道你每一張照片里都有什么東西。不管你用的是 iPhone還是安卓,相冊都有一個(gè)搜索功能,你輸入“beach”,它能列舉所有包含海灘的照片;輸入“car”,它能列舉畫面中有汽車的照片,而且它還能識(shí)別照片中的每一個(gè)人。

每拍攝一張照片,手機(jī)都自動(dòng)識(shí)別其中的典型物體。這是一個(gè)細(xì)思極恐的技術(shù)。怎么才能教會(huì)計(jì)算機(jī)識(shí)別物體呢?

1沒有規(guī)則的學(xué)習(xí)

不到十年之前,人們總認(rèn)為模式識(shí)別方面人腦比計(jì)算機(jī)厲害,甚至谷歌投入巨大精力研究都做不到從照片里識(shí)別出一只貓。然而,從2012年開始,“深度學(xué)習(xí)”讓計(jì)算機(jī)識(shí)別圖形的能力突然變得無比強(qiáng)大,甚至已經(jīng)超過了人類。

首先來看人是怎么識(shí)別貓的。觀察一下這張圖,你怎么判斷這張照片里有沒有貓呢?

你可能會(huì)說,這很簡單,所有人都知道貓長什么樣——好,那請問貓長什么樣?

你也許可以用科學(xué)語言描寫“三角形”是什么樣的——這是一種圖形,它有三條直線的邊,有三個(gè)頂點(diǎn)??墒悄隳苡帽容^科學(xué)的語言描寫貓嗎?它有耳朵、有尾巴,但這么形容遠(yuǎn)遠(yuǎn)不夠,最起碼你得能把貓和狗區(qū)分開來才行。

再看下面這張圖片,你怎么判斷 ta 是男還是女呢?

圖片來自 de

你可能會(huì)說女性長得更秀氣一些——那什么叫“秀氣”?是說眉毛比較細(xì)嗎?是輪廓比較小嗎?

這是一個(gè)非常奇怪的感覺。你明明知道貓長什么樣,你明明一眼就能區(qū)分男性和女性,可是說不清是怎么看出來的。

古老的計(jì)算機(jī)圖形識(shí)別方法,就是非要規(guī)定一些明確的識(shí)別規(guī)則,讓計(jì)算機(jī)根據(jù)規(guī)則判斷,結(jié)果發(fā)現(xiàn)非常不可行。

人腦并不是通過什么規(guī)則做的判斷。那到底是怎么判斷的呢?

2神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)計(jì)算并不是一項(xiàng)新技術(shù),幾十年前就有了,但是一開始并不被看好?!渡疃葘W(xué)習(xí)》的作者謝諾夫斯基,上世紀(jì)80年代就在研究神經(jīng)網(wǎng)絡(luò)計(jì)算,那時(shí)候他是一個(gè)少數(shù)派。

1989年,謝諾夫斯基到麻省理工學(xué)院計(jì)算機(jī)實(shí)驗(yàn)室訪問。氣氛不算融洽,那里的人都質(zhì)疑他的方法。午餐之前,謝諾夫斯基有五分鐘的時(shí)間,給所有人介紹一下他講座的主題。謝諾夫斯基臨場發(fā)揮,以食物上的一只蒼蠅為題,說了幾句話。

謝諾夫斯基說,你看這只蒼蠅的大腦只有10萬個(gè)神經(jīng)元,能耗那么低,但是它能看、能飛、能尋找食物,還能繁殖。MIT有臺(tái)價(jià)值一億美元的超級計(jì)算機(jī),消耗極大的能量,有龐大的體積,可是它的功能為什么還不如一只蒼蠅?

在場的教授都未能回答好這個(gè)問題,倒是一個(gè)研究生給出了正確答案。他說這是因?yàn)樯n蠅的大腦是高度專業(yè)化的,進(jìn)化使得蒼蠅的大腦只具備這些特定的功能,而我們的計(jì)算機(jī)是通用的,你可以對它進(jìn)行各種編程,它理論上可以干任何事情。

這個(gè)關(guān)鍵在于,大腦的識(shí)別能力,不是靠臨時(shí)弄一些規(guī)則臨時(shí)編程。大腦的每一個(gè)功能都是專門的神經(jīng)網(wǎng)絡(luò)長出來的,那計(jì)算機(jī)能不能效法大腦呢?

謝諾夫斯基說,大腦已經(jīng)給計(jì)算機(jī)科學(xué)家提供了四個(gè)暗示。

第一個(gè)暗示:大腦是一個(gè)強(qiáng)大的模式識(shí)別器。人腦非常善于在一個(gè)混亂的場景之中識(shí)別出你想要的那個(gè)東西。比如你能從滿大街的人中,一眼就認(rèn)出你熟悉的人。

第二個(gè)暗示:大腦的識(shí)別功能可以通過訓(xùn)練提高。

第三個(gè)暗示:大腦不管是練習(xí)還是使用識(shí)別能力,都不是按照各種邏輯和規(guī)則進(jìn)行的。我們識(shí)別一個(gè)人臉,并不是跟一些抽象的規(guī)則進(jìn)行比對。我們不是通過測量這個(gè)人兩眼之間的距離來識(shí)別這個(gè)人。我們一眼看過去,就知道他是誰了。

第四個(gè)暗示:大腦是由神經(jīng)元組成的。我們大腦里有數(shù)百億個(gè)神經(jīng)元,大腦計(jì)算不是基于明確規(guī)則的計(jì)算,而是基于神經(jīng)元的計(jì)算。

這就是神經(jīng)網(wǎng)絡(luò)計(jì)算要做的事情。

3什么是“深度學(xué)習(xí)”

下面這張圖代表一個(gè)最簡單的計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)。

圖片來自

它從左到右分為三層。

第一層代表輸入的數(shù)據(jù),第二和第三層的每一個(gè)圓點(diǎn)代表一個(gè)神經(jīng)元。

第二層叫“隱藏層”。

第三層是“輸出層”。

數(shù)據(jù)輸入進(jìn)來,經(jīng)過隱藏層各個(gè)神經(jīng)元的一番處理,再把信號(hào)傳遞給輸出層,輸出層神經(jīng)元再處理一番,最后作出判斷。

從下面這張圖,你可以看到它的運(yùn)行過程。

圖片來自 Analytics India Magazine

那什么叫“深度學(xué)習(xí)”呢?

最簡單的理解,就是中間有不止一層隱藏層神經(jīng)元的神經(jīng)網(wǎng)絡(luò)計(jì)算?!吧疃取钡淖置嬉馑季褪菍哟伪容^“深”。

接著看下面這張圖,你可以看到

左邊是簡單神經(jīng)網(wǎng)絡(luò),右邊是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。

圖片來自 Towards Data Science 網(wǎng)站

計(jì)算機(jī)最底層的單元是晶體管,而神經(jīng)網(wǎng)絡(luò)最底層的單元就是神經(jīng)元。神經(jīng)元是什么東西呢?我們看一個(gè)最簡單的例子。

下面這張圖表現(xiàn)了一個(gè)根據(jù)交通信號(hào)燈判斷要不要前進(jìn)的神經(jīng)元。它由三部分組成:輸入、內(nèi)部參數(shù)和輸出。

這個(gè)神經(jīng)元的輸入就是紅燈、黃燈和綠燈這三個(gè)燈哪個(gè)亮了。我們用1表示亮,0表示不亮,那么按照順序,“1,0,0” 這一組輸入數(shù)字,就代表紅燈亮,黃燈和綠燈不亮。

神經(jīng)元的內(nèi)部參數(shù)包括“權(quán)重(weight)”,它對每個(gè)輸入值都給一個(gè)權(quán)重,比如圖中給紅燈的權(quán)重是 -1,黃燈的權(quán)重是 0,給綠燈的權(quán)重是 1。另外,它還有一個(gè)參數(shù)叫“偏移(bias)”,圖中偏移值是-0.5。

神經(jīng)元做的計(jì)算,就是把輸入的三個(gè)數(shù)字分別乘以各自的權(quán)重,相加,然后再加上偏移值。比如現(xiàn)在是紅燈,那么輸入的三個(gè)數(shù)值就是1、0、0,權(quán)重是 -1、0、1,所以計(jì)算結(jié)果就是:

1×(-1) + 0×0 + 0×1 - 0.5 = -1.5

輸出是做判斷,判斷標(biāo)準(zhǔn)是如果計(jì)算結(jié)果大于 0 就輸出“前進(jìn)”命令,小于 0 就輸出“停止”命令?,F(xiàn)在計(jì)算結(jié)果小于0,所以神經(jīng)元就輸出“停止”。

這就是神經(jīng)元的基本原理。真實(shí)應(yīng)用中的神經(jīng)元會(huì)在計(jì)算過程中加入非線性函數(shù)的處理,并且確保輸出值都在 0 和 1 之間。

本質(zhì)上,神經(jīng)元做的事情就是按照自己的權(quán)重參數(shù)把輸入值相加,再加入偏移值,形成一個(gè)輸出值。如果輸出值大于某個(gè)閾值,我們就說這個(gè)神經(jīng)元被“激發(fā)”了。

神經(jīng)元的內(nèi)部參數(shù),包括權(quán)重和偏移值,都是可調(diào)的。

用數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程,就是調(diào)整更新各個(gè)神經(jīng)元的內(nèi)部參數(shù)的過程。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)在訓(xùn)練中不變,是其中神經(jīng)元的參數(shù)決定了神經(jīng)網(wǎng)絡(luò)的功能。

接下來我們要用一個(gè)實(shí)戰(zhàn)例子說明,神經(jīng)網(wǎng)絡(luò)是怎樣進(jìn)行圖形識(shí)別的。我們要用一個(gè)簡單的神經(jīng)網(wǎng)絡(luò)識(shí)別手寫的阿拉伯?dāng)?shù)字。

計(jì)算機(jī)如何識(shí)別手寫數(shù)字?

用神經(jīng)網(wǎng)絡(luò)識(shí)別手寫的阿拉伯?dāng)?shù)字,是一個(gè)非常成熟的項(xiàng)目,網(wǎng)上有現(xiàn)成的數(shù)據(jù)庫和很多教程。有個(gè)叫邁克爾·尼爾森(Michael Nielsen)的人只用了74行Python程序代碼就做成了這件事。

給你幾個(gè)手寫阿拉伯?dāng)?shù)字,可能是信封上的郵政編碼也可能是支票上的錢數(shù),你怎么教會(huì)計(jì)算機(jī)識(shí)別這些數(shù)字呢?

1簡化

想要讓計(jì)算機(jī)處理,首先要把問題“數(shù)學(xué)化”。寫在紙上的字千變?nèi)f化,我們首先把它簡化成一個(gè)數(shù)學(xué)問題。我們用幾個(gè)正方形把各個(gè)數(shù)字分開,就像下面這張圖一樣。

現(xiàn)在問題變成給你一個(gè)包含一個(gè)手寫數(shù)字的正方形區(qū)域,你能不能識(shí)別是什么數(shù)字?

再進(jìn)一步,我們忽略字的顏色,降低正方形的分辨率,就考慮一個(gè)28×28=784個(gè)像素的圖像。我們規(guī)定每一個(gè)像素值都是0到1之間的一個(gè)小數(shù),代表灰度的深淺,0表示純白色,1表示純黑。這樣一來,手寫的數(shù)字“1”就變成了下面這個(gè)樣子 ——

圖片來自, The MNIST dataset。實(shí)際分辨率是28×28。

這就完全是一個(gè)數(shù)學(xué)問題了?,F(xiàn)在無非就是給你784個(gè)0-1之間的數(shù),你能不能對這組數(shù)做一番操作,判斷它們對應(yīng)的是哪個(gè)阿拉伯?dāng)?shù)字。輸入784個(gè)數(shù),輸出一個(gè)數(shù)。

這件事從常理來說并不是一點(diǎn)頭緒都沒有。比如任何人寫數(shù)字“7”,左下角的區(qū)域應(yīng)該是空白的,這就意味著784個(gè)像素點(diǎn)中對應(yīng)正方形左下角區(qū)域那些點(diǎn)的數(shù)值應(yīng)該是0。再比如說,寫“0”的時(shí)候的中間是空的,那么對應(yīng)正方形中間的那些像素點(diǎn)的數(shù)值應(yīng)該是0。

然而,這種人為找規(guī)律的思路非常不可行。首先你很難想到所有的規(guī)則,更重要的是很多規(guī)則都是模糊的——比如,7的左下角空白,那這個(gè)空白區(qū)域應(yīng)該有多大呢?不同人的寫法肯定不一樣。

2設(shè)定

我們要用的方法叫做“誤差反向傳播網(wǎng)絡(luò)”,它最早起源于1986年發(fā)表在《自然》雜志上的一篇論文,這篇論文的被引用次數(shù)已經(jīng)超過了4萬次,是深度學(xué)習(xí)的里程碑。

根據(jù)尼爾森的教程,我們建一個(gè)三層的神經(jīng)網(wǎng)絡(luò),就是下面這張圖 ——

第一層是輸入數(shù)據(jù),圖中只畫了8個(gè)點(diǎn),但其實(shí)上有784個(gè)數(shù)據(jù)點(diǎn)。

第二層是隱藏層,由15個(gè)神經(jīng)元組成。

第三層是輸出層,有10個(gè)神經(jīng)元,對應(yīng)0-9這10個(gè)數(shù)字。

每個(gè)神經(jīng)元都由輸入、權(quán)重和偏移值參數(shù)、輸出三個(gè)部分組成。

隱藏層15個(gè)神經(jīng)元中的每一個(gè)都要接收全部784個(gè)像素的數(shù)據(jù)輸入,總共有784×15=11760個(gè)權(quán)重和15個(gè)偏移值。

第三層10個(gè)神經(jīng)元的每一個(gè)都要跟第二層的所有15個(gè)神經(jīng)元連接,總共有150個(gè)權(quán)重和10個(gè)偏移值。這樣下來,整個(gè)神經(jīng)網(wǎng)絡(luò)一共有11935個(gè)可調(diào)參數(shù)。

理想狀態(tài)下,784個(gè)輸入值在經(jīng)過隱藏層和輸出層這兩層神經(jīng)元的處理后,輸出層的哪個(gè)神經(jīng)元的輸出結(jié)果最接近于1,神經(jīng)網(wǎng)絡(luò)就判斷這是哪一個(gè)手寫數(shù)字。

3訓(xùn)練

網(wǎng)上有個(gè)公開的現(xiàn)成數(shù)據(jù)庫叫“MNIST”,其中包括6萬個(gè)手寫的數(shù)字圖像,都標(biāo)記了它們代表的是哪些數(shù)字。

我們要做的是用這些圖像訓(xùn)練神經(jīng)網(wǎng)絡(luò),去調(diào)整好那11935個(gè)參數(shù)。我們可以用其中3萬個(gè)圖像訓(xùn)練,用剩下3萬個(gè)圖像檢驗(yàn)訓(xùn)練效果。

這個(gè)訓(xùn)練調(diào)整參數(shù)的方法,就是“誤差反向傳播”。比如我們輸入一個(gè)數(shù)字“7”的圖像。

神經(jīng)網(wǎng)絡(luò)實(shí)際收到的是784個(gè)像素值。

經(jīng)過兩層神經(jīng)元的傳播計(jì)算,理想情況下,輸出層的7號(hào)神經(jīng)元的輸出值應(yīng)該最接近于1,其他的都很接近于0。一開始結(jié)果并不是這么準(zhǔn)確,我們要用一套特定的規(guī)則去調(diào)整各個(gè)神經(jīng)元的參數(shù)。

參數(shù)調(diào)整有個(gè)方向,叫做“誤差梯度”。比如對輸出層的7號(hào)神經(jīng)元來說,調(diào)整方向就是要讓它的輸出值變大;對其他9個(gè)神經(jīng)元,調(diào)整方向則是讓輸出值變小。這個(gè)調(diào)整策略是看哪個(gè)輸入信息對結(jié)果的影響大,對它的權(quán)重的調(diào)整就要大一點(diǎn)。

幾萬個(gè)訓(xùn)練圖像可能會(huì)被反復(fù)使用多次,神經(jīng)網(wǎng)絡(luò)參數(shù)不斷修改,最終將會(huì)達(dá)到穩(wěn)定。慢慢地,新圖像喂進(jìn)來,這11935個(gè)參數(shù)的變化越來越小,最終幾乎不動(dòng)了。

那就是說,這個(gè)識(shí)別手寫數(shù)字的神經(jīng)網(wǎng)絡(luò),已經(jīng)練成了。事實(shí)證明這個(gè)簡單網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率能達(dá)到95%!

在理論上,這個(gè)方法可以用來學(xué)習(xí)識(shí)別一切圖像。你只要把一張張的圖片喂給神經(jīng)網(wǎng)絡(luò),告訴它圖上有什么,它終將自己發(fā)現(xiàn)各個(gè)東西的像素規(guī)律……但是在實(shí)踐上,這個(gè)方法非常不可行。

卷積網(wǎng)絡(luò)如何實(shí)現(xiàn)圖像識(shí)別

計(jì)算機(jī)不怕“笨辦法”,但是哪怕你能讓它稍微變聰明一點(diǎn),你的收獲都是巨大的。

1“笨辦法”和人的辦法

下面這張圖中有一只貓、一只狗、綠色的草地和藍(lán)天白云。它的分辨率是350×263,總共92050個(gè)像素點(diǎn)??紤]到這是一張彩色照片,每個(gè)像素點(diǎn)必須用三個(gè)數(shù)來代表顏色,這張圖要用27萬個(gè)數(shù)來描寫。

要想用誤差反向傳播神經(jīng)網(wǎng)絡(luò)識(shí)別這樣的圖,它第二層每一個(gè)神經(jīng)元都要有27萬個(gè)權(quán)重參數(shù)。要想識(shí)別包括貓、狗、草地、藍(lán)天白云這種水平的常見物體,它的輸出層必須有上千個(gè)神經(jīng)元才行。這樣訓(xùn)練一次的計(jì)算量將是巨大的—— 但這還不是最大的難點(diǎn)。

最大的難點(diǎn)是神經(jīng)網(wǎng)絡(luò)中的參數(shù)越多,它需要的訓(xùn)練素材就越多。并不是任何照片都能用作訓(xùn)練素材,你必須事先靠人工標(biāo)記照片上都有什么東西作為標(biāo)準(zhǔn)答案,才能給神經(jīng)網(wǎng)絡(luò)提供有效反饋。這么多訓(xùn)練素材上哪找呢?

我聽羅胖跨年演講學(xué)到一個(gè)詞叫“回到母體”,意思大約是從新技術(shù)后退一步,返回基本常識(shí),也許能發(fā)現(xiàn)新的創(chuàng)新點(diǎn)?,F(xiàn)在我們回到人腦,想想為什么簡單神經(jīng)網(wǎng)絡(luò)是個(gè)笨辦法。

人腦并不是每次都把一張圖中所有的像素都放在一起考慮。我們有一個(gè)“看什么”,和一個(gè)“往哪看”的思路。

讓你找貓,你會(huì)先大概想象一下貓是什么樣子,然后從一張大圖上一塊一塊地找,你沒必要同時(shí)考慮圖片的左上角和右下角。這是“往哪看”。

還有,當(dāng)你想象貓的時(shí)候,雖然不能完全說清,但你畢竟還是按照一定的規(guī)律去找。比如貓身上有毛,它有兩個(gè)眼睛和一條尾巴等等。你看的不是單個(gè)的像素點(diǎn),你看的是一片一片的像素群的模式變化。這是“看什么”。

我理解“卷積網(wǎng)絡(luò)”,就是這兩個(gè)思路的產(chǎn)物。

2競賽

斯坦福大學(xué)的華裔計(jì)算機(jī)科學(xué)家李飛飛,組織了一個(gè)叫做ImageNet的機(jī)器學(xué)習(xí)圖形識(shí)別比賽,從2010年開始每年舉行一次。這個(gè)比賽每年都給參賽者提供一百萬張圖片作為訓(xùn)練素材!其中每一張圖都由人工標(biāo)記了圖中的每個(gè)物體。

圖片素材中共有大約一千個(gè)物體分類。這就意味著,對每一種物體,人工智能都有大約一千次訓(xùn)練機(jī)會(huì)。

比賽規(guī)則是參賽者用這一百萬張圖片訓(xùn)練自己的程序,然后讓程序識(shí)別一些新的圖片。每張新圖片有一個(gè)事先設(shè)定的標(biāo)準(zhǔn)答案,而參賽者的程序可以猜五個(gè)答案,只要其中有一個(gè)判斷跟標(biāo)準(zhǔn)答案相符合,就算識(shí)別結(jié)果準(zhǔn)確。

上圖是歷屆比賽冠軍的成績。2010和2011年,最好成績的判斷錯(cuò)誤率都在26%以上,但是2012年,錯(cuò)誤率下降到了16%,從此之后更是直線下降。2017年的錯(cuò)誤率是2.3%,這個(gè)水平已經(jīng)超過人類。

那2012年到底發(fā)生了什么呢?

發(fā)生了“卷積網(wǎng)絡(luò)”。

3卷積網(wǎng)絡(luò)

2012年的冠軍是多倫多大學(xué)的一個(gè)研究組,他們使用的方法就是卷積網(wǎng)絡(luò)。正是因?yàn)檫@個(gè)方法太成功了,“深度學(xué)習(xí)”才流行起來,現(xiàn)在搞圖形識(shí)別幾乎全都是用這個(gè)方法。

獲獎(jiǎng)團(tuán)隊(duì)描述卷積網(wǎng)絡(luò)的論文的第一作者叫艾利克斯·克里澤夫斯基(Alex Krizhevsky),當(dāng)時(shí)他只是一個(gè)研究生,這篇論文現(xiàn)在被人稱為“AlexNet” 。

簡單來說,AlexNet的方法是在最基本的像素到最終識(shí)別的物體之間加入了幾個(gè)邏輯層,也就是“卷積層”?!熬矸e”是一種數(shù)學(xué)操作,可以理解成“過濾”,或者叫“濾波”,意思是從細(xì)致的信號(hào)中識(shí)別尺度更大一點(diǎn)的結(jié)構(gòu)。

每一個(gè)卷積層識(shí)別一種特定規(guī)模的圖形模式,然后后面一層只要在前面一層的基礎(chǔ)上進(jìn)行識(shí)別,這就解決了“看什么”和“往哪看”的問題。

比如說我們要搞人臉識(shí)別,卷積網(wǎng)絡(luò)方法把問題分解為三個(gè)卷積層。

圖片來自cdn.edureka.co

第一層,是先從像素點(diǎn)中識(shí)別一些小尺度的線條結(jié)構(gòu)。第二層,是根據(jù)第一層識(shí)別出來的小尺度結(jié)構(gòu)識(shí)別像眼睛、耳朵、嘴之類的局部器官。第三層,才是根據(jù)這些局部器官識(shí)別人臉。其中每一層的神經(jīng)網(wǎng)絡(luò)從前面一層獲得輸入,經(jīng)過深度學(xué)習(xí)之后再輸出到后面一層。

AlexNet的論文提到,他的識(shí)別系統(tǒng)足足分了五個(gè)卷積層,每一層都由很多個(gè)“特征探測器”組成。第一層有96個(gè)特征探測器,各自負(fù)責(zé)探測整個(gè)圖形中哪些地方有下面這96種特征中的一種。

比如說,第一層的第一個(gè)特征探測器,專門負(fù)責(zé)判斷圖中哪里有像下面這樣,從左下到右上的線條結(jié)構(gòu)。

這個(gè)特征探測器本身也是一個(gè)神經(jīng)網(wǎng)絡(luò),有自己的神經(jīng)元——而這里的妙處在于,它的每一個(gè)神經(jīng)元只負(fù)責(zé)原始圖像中一個(gè)11×11小區(qū)塊??紤]到三種顏色,輸入值只有 11×11×3= 363個(gè)。而且因?yàn)檫@個(gè)探測器只負(fù)責(zé)探測一種結(jié)構(gòu),每個(gè)神經(jīng)元的參數(shù)都是一樣的!這就大大降低了運(yùn)算量。

第一層的其他探測器則負(fù)責(zé)判斷像垂直條紋、斑點(diǎn)、顏色從亮到暗等各種小結(jié)構(gòu),一共是96種。

也就是說,卷積網(wǎng)絡(luò)的第一層先把整個(gè)圖像分解成11×11的區(qū)塊,看看每個(gè)區(qū)塊里都是什么結(jié)構(gòu)。為了避免結(jié)構(gòu)被區(qū)塊拆散,相鄰的區(qū)塊之間還要有相當(dāng)大的重疊。經(jīng)過第一層的過濾,我們看到的就不再是一個(gè)個(gè)的像素點(diǎn),而是一張小結(jié)構(gòu)的邏輯圖。

然后第二卷積層再從這些小結(jié)構(gòu)上識(shí)別出更大、更復(fù)雜也更多的結(jié)構(gòu)來。以此類推,一直到第五層。下面這張圖表現(xiàn)了從第一層到第三層識(shí)別的模塊(灰色)和對應(yīng)的實(shí)例(彩色)。

我們看到,第二個(gè)卷積層已經(jīng)能識(shí)別圓形之類的結(jié)構(gòu),第三層已經(jīng)能識(shí)別車輪和小的人臉。五個(gè)卷積層之外,AlexNet還設(shè)置了三個(gè)全局層,用于識(shí)別更大的物體。整個(gè)分層的結(jié)構(gòu)是下面這樣。

圖片來自 Machine Learning Blog

這樣分層方式有很多好處:第一,卷積層中的神經(jīng)元只要處理一個(gè)小區(qū)域的數(shù)據(jù),而且參數(shù)可以重復(fù)使用,大大減少了運(yùn)算量。第二,因?yàn)榭梢砸粋€(gè)區(qū)域一個(gè)區(qū)域地搜索,就可以發(fā)現(xiàn)小尺度的物體。

意識(shí)到圖形識(shí)別有多難,你就能體會(huì)到AlexNet的識(shí)別水平有多神奇。下面這張圖中有個(gè)紅色的螨蟲,它出現(xiàn)在圖像的邊緣,但是被正確識(shí)別出來了。

AlexNet還猜測它可能是蜘蛛、蟑螂、虱子或者海星,但是認(rèn)為它是螨蟲的可能性最高。這個(gè)判斷水平已經(jīng)超過了我,我都不知道那是個(gè)螨蟲。

再比如下面這張圖,標(biāo)準(zhǔn)答案是“蘑菇”,但AlexNet給的第一判斷是更精確的“傘菌”,“蘑菇”是它的第二選項(xiàng)!

而現(xiàn)在基于類似的卷積網(wǎng)絡(luò)方法的深度學(xué)習(xí)程序,水平已經(jīng)遠(yuǎn)遠(yuǎn)超過了AlexNet。

4深度學(xué)習(xí)(不)能干什么

AlexNet那篇論文的幾個(gè)作者成立了一家創(chuàng)業(yè)公司,這家公司在2013年被Google收購了。半年之后,Google相冊就有了基于圖片識(shí)別的搜索能力。

緊接著,Google就可以從自家拍攝的街景圖像中識(shí)別每家每戶的門牌號(hào)碼了。Google還奪得了2014年的ImageNet競賽冠軍。

所以千萬別低估工程師迭代新技術(shù)的能力。他們舉一反三,一旦發(fā)現(xiàn)這個(gè)技術(shù)好,馬上就能給用到極致。2012年之前深度學(xué)習(xí)還是機(jī)器學(xué)習(xí)中的“非主流”,現(xiàn)在是絕對主流。

深度學(xué)習(xí)能做一些令人贊嘆的事情。比如說對于一個(gè)不太容易判斷的物體,如果網(wǎng)絡(luò)知道圖中有草地,那么它就會(huì)自動(dòng)判斷這應(yīng)該是一個(gè)經(jīng)常放在戶外的東西,而不太可能是一件家具。

這完全是基于經(jīng)驗(yàn)的判斷,你不需要告訴它家具一般不放戶外??吹膱D多了,它仿佛獲得了一些智慧!一個(gè)生活經(jīng)驗(yàn)少的人可做不到這一點(diǎn)。

但是蒂莫西·李也提醒了我們深度學(xué)習(xí)不能做什么。

比如說把一個(gè)物體放大一點(diǎn)、或者旋轉(zhuǎn)一個(gè)角度、或者調(diào)整一下光線,卷積網(wǎng)絡(luò)就不知道那是同一個(gè)東西,它必須重新判斷。深度學(xué)習(xí)完全是基于經(jīng)驗(yàn)的判斷,它沒有任何邏輯推理能力。

在我看來,這種學(xué)習(xí)方法,就如同在數(shù)學(xué)考試前夜背誦習(xí)題集。你能猜對答案是因?yàn)槟惚痴b過類似的題,但是你并不真的理解數(shù)學(xué)。

這樣的算法會(huì)有創(chuàng)造力嗎?深度學(xué)習(xí)能發(fā)現(xiàn)圖像中從來沒有被人命名過的“怪異”物體嗎?我們見識(shí)了光憑經(jīng)驗(yàn)的操作能強(qiáng)大到什么程度,但是我們也能看出來,它距離真正的智能還非常遙遠(yuǎn)。

相關(guān)書籍推薦

《深度學(xué)習(xí):智能時(shí)代的核心驅(qū)動(dòng)力量》

[美]特倫斯·謝諾夫斯基 著丨2019.2

購書詳情,請點(diǎn)擊“書封”

近期好文推薦

[話題]北上廣外,還有哪些城市值得去

[話題]QQ20歲!每個(gè)昵稱背后都是青春

[情感] 在愛里犧牲,是最愚蠢的行為

[文學(xué)]小時(shí)候不明白,長大才懂的愛情

[科普]我們的大腦為什么會(huì)輕易上癮?

[書單] 讓思想快速升級的20本書

[影視] 中國第一科幻大片,真的來了!

[職場] 年后換工作,需要搞清楚這件事

-End-

編輯:YQ 責(zé)編:Yoyo

2019.2.27

更多經(jīng)典書單和深度好文

歡迎關(guān)注「中信出版集團(tuán)」公眾號(hào)

近期新書一覽,點(diǎn)擊書封即可看到有關(guān)內(nèi)容!

1.《(784代表什么愛情暗示)33代表什么愛情暗示?》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《(784代表什么愛情暗示)33代表什么愛情暗示?》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí),對其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。

3.文章轉(zhuǎn)載時(shí)請保留本站內(nèi)容來源地址,http://f99ss.com/why/3217720.html

上一篇

[日劇愛情人偶講的什么]愛情人偶片尾曲叫什么

(1179代表什么愛情暗示)33代表什么愛情暗示

1179代表什么愛情暗示,33代表什么愛情暗示,6代表什么愛情暗示相關(guān)介紹,北京時(shí)間6月13日星期五,投資者繼續(xù)評估最近的一系列美國經(jīng)濟(jì)數(shù)據(jù),在下周美聯(lián)儲(chǔ)決定會(huì)議之前挖掘加息時(shí)機(jī),表示黃金價(jià)格大約一個(gè)月來首次逐周上漲,但主力黃金合同在場內(nèi)交易中小幅降至每盎司1179.20美元...

2327代表什么愛情暗示、6代表什么愛情暗示?

2327代表什么愛情暗示,6代表什么愛情暗示,33代表什么愛情暗示相關(guān)介紹,【僑網(wǎng)編譯尼娜綜合報(bào)道】共和黨全國代表大會(huì)開幕不到10天,川普(Donald Trump)將成為黨的候選人,民主黨推定候選人和希拉里將爭奪白宮。 川普的呼聲一直很高,也有不少華裔支持他。據(jù)人民網(wǎng)報(bào)道,...

2033代表什么愛情暗示 6代表什么愛情暗示?

2033代表什么愛情暗示,6代表什么愛情暗示,15代表什么愛情暗示相關(guān)介紹,生疏 老師你好!每天拜訪你的文章,從中學(xué)到了很多知識(shí),希望能得到老師的指示的特權(quán)。 女,1990年陽歷12月11日出生,時(shí)辰不詳。已婚,不知以后的婚姻質(zhì)量如何?祝老師身體健康,萬事如意! 【鮮見解析】...

1276代表什么愛情,1276代表什么愛情暗示?

1276代表什么愛情,1276代表什么愛情暗示,1276代表什么愛情意思相關(guān)介紹,文:楊清華 桃花運(yùn)是件好事。不管是誰,基本上都喜歡桃花運(yùn)。適齡未婚者遇到桃花運(yùn),很容易找到如意的伴侶。 不需要婚姻的人,也能從中找到自己樂趣,讓自己心情大好,激發(fā)自己的潛在能量。桃花運(yùn)如果處理好的話,...