原創(chuàng)Skymind
甘明匯編
最近一篇介紹性的文章引起了很多關(guān)注。本文詳細(xì)介紹了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變種——長(zhǎng)短期記憶(LSTM)的原理。
具體內(nèi)容從前饋網(wǎng)絡(luò)開始,介紹了循環(huán)神經(jīng)網(wǎng)絡(luò)、時(shí)間序列反向傳播算法(BPTT)、LSTM等模型的原理和運(yùn)行方式。
本文來(lái)自Skymind,一家推動(dòng)數(shù)據(jù)項(xiàng)目從原型到落地的公司。獲得YCombinator和騰訊的投資。
對(duì)于人工智能初學(xué)者來(lái)說(shuō)是一個(gè)非常好的入門材料。
t代表時(shí)間步長(zhǎng),ht代表第t個(gè)時(shí)間步長(zhǎng)的隱藏狀態(tài),是同一時(shí)間步長(zhǎng)xt的輸入函數(shù)。w是修正xt的權(quán)函數(shù)。
u是一個(gè)隱藏狀態(tài)矩陣,也稱為轉(zhuǎn)移矩陣,類似于馬氏鏈。Ht-1代表t的前一時(shí)間步t-1的隱藏狀態(tài)。
權(quán)重矩陣是一個(gè)確定當(dāng)前輸入和過(guò)去隱藏狀態(tài)重要性的過(guò)濾器。它們產(chǎn)生的誤差將通過(guò)反向傳播返回,并用于調(diào)整相應(yīng)的權(quán)重,直到誤差不再減少。
權(quán)重輸入(Wxt)和隱藏狀態(tài)(Uht-1)的和被函數(shù)φ壓縮,函數(shù)φ根據(jù)情況可以是邏輯S形函數(shù),也可以是雙曲正切(tanh)函數(shù)。
這是一個(gè)標(biāo)準(zhǔn)工具,用于將非常大或非常小的值壓縮到邏輯空中,并使梯度可用于反向傳播。
因?yàn)檫@個(gè)反饋循環(huán)發(fā)生在序列中的每個(gè)時(shí)間步,每個(gè)隱藏狀態(tài)不僅跟蹤之前的隱藏狀態(tài),而且只要內(nèi)存能夠持久,就包含h_t-1之前的所有隱藏狀態(tài)。
給定一系列字母,圓形網(wǎng)絡(luò)將使用第一個(gè)字符來(lái)幫助確定它對(duì)第二個(gè)字符的感知。比如第一個(gè)字母是Q,可能導(dǎo)致它推斷下一個(gè)字母是U,第一個(gè)字母是T,可能導(dǎo)致它推斷下一個(gè)字母是h。
由于環(huán)網(wǎng)跨越時(shí)間,用動(dòng)畫來(lái)說(shuō)明可能更好。(第一個(gè)垂直節(jié)點(diǎn)可以看作前饋網(wǎng)絡(luò),隨著時(shí)間的推移會(huì)變成循環(huán)網(wǎng)絡(luò)。).
在上圖中,每個(gè)x是輸入樣本,w是過(guò)濾輸入的權(quán)重,a是隱藏層的激活(加權(quán)輸入和之前隱藏狀態(tài)的和),b是使用修改的線性或sigmoid單位進(jìn)行變換或壓縮后隱藏層的輸出。
時(shí)間序列反向傳播算法(BPTT)
循環(huán)網(wǎng)絡(luò)的目的是對(duì)序列輸入進(jìn)行準(zhǔn)確分類。我們主要依靠誤差反向傳播和梯度下降法來(lái)做到這一點(diǎn)。
前饋網(wǎng)絡(luò)中的反向傳播是從最后一個(gè)誤差開始,通過(guò)每個(gè)隱含層的輸出、權(quán)值和輸入向后移動(dòng),通過(guò)計(jì)算它們的偏導(dǎo)數(shù)e/w或它們的變化率之間的關(guān)系,將一定比例的誤差分配到每個(gè)權(quán)值。
隨后,這些偏導(dǎo)數(shù)將用于梯度下降算法,以調(diào)整權(quán)重和減少誤差。
循環(huán)網(wǎng)絡(luò)依賴于反向傳播的一種擴(kuò)展,稱為時(shí)間序列反向傳播算法,即BPTT。
在這種情況下,時(shí)間是通過(guò)一系列定義明確且有序的計(jì)算來(lái)表示的,這些計(jì)算將一個(gè)時(shí)間步驟與下一個(gè)時(shí)間步驟聯(lián)系起來(lái)。
神經(jīng)網(wǎng)絡(luò),不管是循環(huán)的還是非循環(huán)的,都是簡(jiǎn)單的嵌套復(fù)合函數(shù),比如f(g(h(x))。添加時(shí)間元素只是擴(kuò)展了鏈?zhǔn)椒▌t求導(dǎo)數(shù)的函數(shù)序列。
截?cái)郆PTT
截?cái)郆PTT(截?cái)郆PTT)是完整BPTT的近似方法,尤其是處理長(zhǎng)序列的首選。
在具有更多時(shí)間步長(zhǎng)的序列中,更新完整BPTT的每個(gè)參數(shù)的正向/反向操作成本變得非常高。
截?cái)郆PTT的缺點(diǎn)是,由于截?cái)?,梯度反向運(yùn)動(dòng)的距離是有限的,所以網(wǎng)絡(luò)不能像完全BPTT那樣學(xué)習(xí)依賴關(guān)系。
梯度消失和梯度爆炸
和大多數(shù)神經(jīng)網(wǎng)絡(luò)一樣,循環(huán)網(wǎng)絡(luò)也有一定的歷史。到20世紀(jì)90年代初,梯度消失的問(wèn)題已經(jīng)成為網(wǎng)絡(luò)性能的主要障礙。
就像直線代表x和y的變化一樣,梯度代表所有有誤差的權(quán)重的變化。如果不知道梯度,就無(wú)法向減少誤差的方向調(diào)整權(quán)重,網(wǎng)絡(luò)就會(huì)停止學(xué)習(xí)。
當(dāng)在最終輸入和許多先前的時(shí)間步驟之間建立鏈接時(shí),循環(huán)網(wǎng)絡(luò)也會(huì)遇到問(wèn)題。因?yàn)楹茈y知道一個(gè)長(zhǎng)途輸入有多重要。
就像回到爺爺奶奶哥哥的數(shù)量,會(huì)越來(lái)越多。
某種程度上,這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)傳遞的信息要經(jīng)過(guò)多個(gè)乘法階段。
研究過(guò)復(fù)利的人都知道,任何一個(gè)量循環(huán)乘以一個(gè)稍大于一的量,都會(huì)變得大得不可測(cè)量(其實(shí)簡(jiǎn)單的數(shù)學(xué)真理支持網(wǎng)絡(luò)效應(yīng)和社會(huì)不平等)。
另一方面,當(dāng)乘以小于1時(shí),它會(huì)變得非常非常小。如果賭徒每投入一美元只能贏97美分,他們很快就會(huì)破產(chǎn)。
由于深度神經(jīng)網(wǎng)絡(luò)的層次和時(shí)間步長(zhǎng)是通過(guò)乘法相互關(guān)聯(lián)的,導(dǎo)數(shù)很容易消失或爆炸。
梯度爆炸時(shí),每一個(gè)重量都像諺語(yǔ)中的蝴蝶,扇動(dòng)翅膀會(huì)在遠(yuǎn)處引起颶風(fēng)。
但是梯度爆炸相對(duì)容易解決,因?yàn)榭梢越財(cái)嗷蛘邏嚎s。
相反,當(dāng)梯度消失時(shí),導(dǎo)數(shù)變得很小,使得計(jì)算機(jī)無(wú)法工作,網(wǎng)絡(luò)無(wú)法學(xué)習(xí)。這是一個(gè)比較難解決的問(wèn)題。
下面你可以看到反復(fù)應(yīng)用S形函數(shù)的效果。數(shù)據(jù)曲線變得越來(lái)越平坦,直到無(wú)法遠(yuǎn)距離檢測(cè)到斜率。這類似于通過(guò)許多層的梯度消失。
長(zhǎng)短期記憶(LSTM)
在20世紀(jì)90年代中期,德國(guó)研究人員塞普·霍克雷特和于爾根·施密德胡貝爾提出了一種具有長(zhǎng)短期記憶單元的循環(huán)網(wǎng)絡(luò)變體(LSTM),作為梯度消失問(wèn)題的解決方案。
LSTM有助于保存可以通過(guò)時(shí)間和層傳播回來(lái)的錯(cuò)誤。
通過(guò)保持更恒定的誤差,它們使循環(huán)網(wǎng)絡(luò)能夠以許多時(shí)間步長(zhǎng)(超過(guò)1000步)繼續(xù)學(xué)習(xí),從而為遠(yuǎn)程鏈接因果關(guān)系打開了一個(gè)通道。
這是機(jī)器學(xué)習(xí)和人工智能面臨的主要挑戰(zhàn)之一,因?yàn)樗惴ń?jīng)常會(huì)遇到稀疏和延遲的獎(jiǎng)勵(lì)信號(hào)。
LSTM將信息存儲(chǔ)在環(huán)形網(wǎng)絡(luò)正常信息流之外的門控單元中。信息可以像計(jì)算機(jī)內(nèi)存中的數(shù)據(jù)一樣存儲(chǔ)、寫入單元格或從單元格中讀取。
該單元通過(guò)打開和關(guān)閉門來(lái)決定存儲(chǔ)什么以及何時(shí)允許閱讀、書寫和遺忘。
然而,與計(jì)算機(jī)上的數(shù)字存儲(chǔ)器不同,這些門是模擬的,通過(guò)從0到1的sigmoid函數(shù)的逐元素乘法來(lái)實(shí)現(xiàn)。
與數(shù)字信號(hào)相比,模擬信號(hào)具有可微的優(yōu)點(diǎn),因此適合反向傳播。
這些門類似于神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn),它們根據(jù)接收到的信號(hào)決定切換。他們根據(jù)信息的強(qiáng)度和重要性對(duì)信息進(jìn)行屏蔽或傳輸,然后用自己的權(quán)重對(duì)信息進(jìn)行過(guò)濾。
這些權(quán)重就像調(diào)整輸入和隱藏狀態(tài)的權(quán)重一樣,可以在循環(huán)網(wǎng)絡(luò)學(xué)習(xí)的過(guò)程中進(jìn)行調(diào)整。
也就是說(shuō),記憶單元的學(xué)習(xí)將通過(guò)猜測(cè)調(diào)整權(quán)重、反向傳播誤差和梯度下降法的迭代過(guò)程來(lái)決定何時(shí)允許數(shù)據(jù)進(jìn)入、離開或刪除。
下圖說(shuō)明了數(shù)據(jù)如何通過(guò)內(nèi)存單元,以及門如何控制數(shù)據(jù)流。
如果你不熟悉LSTM,別擔(dān)心,仔細(xì)研究一下。揭開這個(gè)秘密只需要幾分鐘。
從底部開始,三個(gè)箭頭表示信息從多個(gè)點(diǎn)流入存儲(chǔ)單元。當(dāng)前輸入和過(guò)去單元狀態(tài)的組合不僅反饋到單元本身,還反饋到它的三個(gè)門中的每一個(gè),這將決定它們?nèi)绾翁幚磔斎搿?/p>
黑點(diǎn)是門本身,決定是讓新輸入進(jìn)入還是忘記當(dāng)前狀態(tài),還是讓這個(gè)狀態(tài)影響當(dāng)前時(shí)間步長(zhǎng)的網(wǎng)絡(luò)輸出。
Sc是存儲(chǔ)單元的當(dāng)前狀態(tài),g_y_in是存儲(chǔ)單元的當(dāng)前輸入。
請(qǐng)記住,每扇門都可以打開或關(guān)閉,它們?cè)诿恳徊蕉贾匦陆M合它們的打開和關(guān)閉狀態(tài)。存儲(chǔ)單元可以在每個(gè)時(shí)間步長(zhǎng)決定是否忘記、寫入或讀取其狀態(tài),這些流程都被表示出來(lái)。
大而粗的字母給出了每次操作的結(jié)果。
下面是另一個(gè)示意圖,比較了簡(jiǎn)單圓形網(wǎng)絡(luò)(左)和LSTM單元(右)。
值得注意的是,LSTM的存儲(chǔ)單元在輸入轉(zhuǎn)換中賦予加法和乘法不同的角色。
兩張圖中間的加號(hào)本質(zhì)上是LSTM的秘密。
雖然這看起來(lái)非常非常簡(jiǎn)單,但是當(dāng)它必須在深度上向后傳播時(shí),這種改變有助于保持恒定的誤差。
LSTM不會(huì)將當(dāng)前狀態(tài)乘以新的輸入來(lái)確定后續(xù)的單元狀態(tài),而是將兩者相加,這就有所不同了。(遺忘之門還是靠乘法。)
不同的權(quán)重集過(guò)濾輸入信息,以決定是輸入、輸出還是遺忘。
不同的權(quán)重集過(guò)濾輸入信息,以決定是輸出還是遺忘。遺忘門表示為線性恒等式函數(shù),因?yàn)槿绻T打開,存儲(chǔ)單元的當(dāng)前狀態(tài)將簡(jiǎn)單地乘以1,從而向前傳播一個(gè)時(shí)間步長(zhǎng)。
另外,還有一個(gè)簡(jiǎn)單的竅門。將每個(gè)LSTM存儲(chǔ)單元的遺忘門的偏差設(shè)置為1可以提高網(wǎng)絡(luò)性能。(另一方面,Sutskever建議將偏差設(shè)置為5。)
你可能會(huì)問(wèn),LSTM的目的是連接遙遠(yuǎn)的事件和最終的輸出。為什么他們有一個(gè)被遺忘的門?
嗯,有時(shí)候忘記是件好事。
如果分析一個(gè)文本語(yǔ)料庫(kù),當(dāng)它到達(dá)一個(gè)文檔的末尾時(shí),下一個(gè)文檔基本上與它無(wú)關(guān)。因此,在網(wǎng)絡(luò)捕獲下一個(gè)文檔的第一個(gè)元素之前,存儲(chǔ)單元應(yīng)該設(shè)置為零。
以一個(gè)文本語(yǔ)料庫(kù)的分析為例,當(dāng)你到達(dá)一個(gè)文檔的末尾時(shí),你可能會(huì)認(rèn)為下一個(gè)文檔與這個(gè)文檔無(wú)關(guān),所以在開始吸收下一個(gè)文檔的第一個(gè)元素之前,應(yīng)該將記憶單元?dú)w零。
下圖中可以看到工作門,直線代表關(guān)閉的門,空白圈代表打開的門。沿著隱藏層水平延伸的線和圓代表遺忘門。
需要注意的是,前饋網(wǎng)絡(luò)只是一對(duì)一的,即一個(gè)輸入映射到一個(gè)輸出。但是循環(huán)網(wǎng)絡(luò)可以是一對(duì)多、多對(duì)多和多對(duì)一。
覆蓋不同的時(shí)間尺度和遠(yuǎn)距離依賴
您可能還想知道保護(hù)存儲(chǔ)單元免受新數(shù)據(jù)影響的輸入門和防止其影響RNN某些輸出的輸出門的確切值。你可以把LSTM想象成允許一個(gè)神經(jīng)網(wǎng)絡(luò)在不同的時(shí)間尺度上同時(shí)運(yùn)行。
讓我們以一個(gè)人的生活為例,想象我們?cè)谝粋€(gè)時(shí)間序列中收到了關(guān)于那個(gè)生活的各種數(shù)據(jù)流。
每個(gè)時(shí)間步的地理位置對(duì)于下一個(gè)時(shí)間步非常重要,所以時(shí)間尺度總是對(duì)最新信息開放的。
可能這個(gè)人是個(gè)每?jī)赡晖镀币淮蔚那趭^公民。在民主時(shí)代,我們將特別關(guān)注他們?cè)谶x舉前后的行動(dòng)。我們不希望我們的政治分析受到我們的地理位置產(chǎn)生的持續(xù)噪音的影響。
如果這個(gè)人也是一個(gè)勤奮的女兒,那么也許我們可以建立一個(gè)家庭時(shí)間,學(xué)習(xí)每周日定時(shí)打電話的模式,每年假期前后的電話數(shù)量都會(huì)大幅增加。與政治周期、地理位置無(wú)關(guān)。
其他數(shù)據(jù)也是如此。音樂(lè)是多節(jié)奏的。文本包含不同時(shí)間間隔的重復(fù)主題。股市和經(jīng)濟(jì)會(huì)有更長(zhǎng)的波動(dòng)周期。它們?cè)诓煌臅r(shí)間尺度上同時(shí)運(yùn)行,LSTM可以捕捉這些時(shí)間尺度。
門控循環(huán)單元(GRU)
門控環(huán)路單元(GRU)基本上是沒(méi)有輸出門的LSTM,因此它在每個(gè)時(shí)間步長(zhǎng)都將內(nèi)容從其存儲(chǔ)單元完全寫入更大的網(wǎng)絡(luò)。
代碼示例
這里的例子是LSTM如何學(xué)習(xí)模仿莎士比亞的戲劇評(píng)論,這是通過(guò)深度學(xué)習(xí)實(shí)現(xiàn)的。難懂的地方,有相應(yīng)的注釋。
門戶:
https://github . com/deep learning 4j/dl4j-examples/blob/master/dl4j-examples/src/main/Java/org/deep learning 4j/examples/recursive/character/lstmchromodelingexample . Java
LSTM超參數(shù)調(diào)整
以下是手動(dòng)優(yōu)化RNN超參數(shù)時(shí)應(yīng)注意的一些情況:
小心過(guò)擬合,神經(jīng)網(wǎng)絡(luò)基本在“記憶”訓(xùn)練數(shù)據(jù)時(shí),就會(huì)發(fā)生過(guò)擬合。過(guò)擬合意味著你在訓(xùn)練數(shù)據(jù)上有很好的表現(xiàn),在其他數(shù)據(jù)集上基本無(wú)用。正則化有好處:方法包括 l1、 l2和dropout等。要有一個(gè)單獨(dú)的測(cè)試集,不要在這個(gè)測(cè)試集上訓(xùn)練網(wǎng)絡(luò)。網(wǎng)絡(luò)越大,功能就越強(qiáng),但也更容易過(guò)擬合。 不要試圖從10000個(gè)示例中學(xué)習(xí)一百萬(wàn)個(gè)參數(shù),參數(shù)>樣例=麻煩。數(shù)據(jù)越多越好,因?yàn)樗兄诜乐惯^(guò)度擬合。訓(xùn)練要經(jīng)過(guò)多個(gè)epoch(算法遍歷訓(xùn)練數(shù)據(jù)集)。每個(gè)epoch之后,評(píng)估測(cè)試集表現(xiàn),以了解何時(shí)停止(要提前停止)。學(xué)習(xí)速率是最重要的超參數(shù)??傮w而言,堆疊層會(huì)有幫助。對(duì)于LSTM,可以使用softsign(而不是softmax)函數(shù)替代雙曲正切函數(shù),它更快,更不容易飽和( 梯度大概為0 )。更新器:RMSProp、AdaGrad或Nesterovs通常是不錯(cuò)的選擇。AdaGrad也會(huì)降低學(xué)習(xí)率,這有時(shí)會(huì)有所幫助。記住,要將數(shù)據(jù)標(biāo)準(zhǔn)化、MSE損失函數(shù)+恒等激活函數(shù)用于回歸、Xavier權(quán)重初始化。 資源推薦繪圖:用于圖像生成的遞歸神經(jīng)網(wǎng)絡(luò)(論文)
https://arxiv.org/pdf/1502.04623v2.pdf
門控反饋遞歸神經(jīng)網(wǎng)絡(luò)(論文)
https://arxiv.org/pdf/1502.02367v4.pdf
遞歸神經(jīng)網(wǎng)絡(luò);于爾根·施密德胡貝爾(博客)
http://people.idsia.ch/~juergen/rnn.html
遞歸神經(jīng)網(wǎng)絡(luò)的不合理有效性;Andrej Karpathy(博客)
https://karpathy.github.io/2015/05/21/rnn-effectiveness/
了解LSTMsChristopher Olah(博客)
https://colah.github.io/posts/2015-08-Understanding-LSTMs/
門控遞歸神經(jīng)網(wǎng)絡(luò)在序列建模中的實(shí)證評(píng)價(jià):Cho等人(論文)
https://arxiv.org/pdf/1412.3555v1.pdf
訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò);伊利亞·薩特斯基弗的論文(博士論文)
https://www . cs . utoroto . ca/~ ilya/pubs/ilya _ sutskever _ PhD _ prospect . pdf
遞歸神經(jīng)網(wǎng)絡(luò)中的長(zhǎng)短期記憶:費(fèi)利克斯·格斯(博士論文)
http://www.felixgers.de/papers/phd.pdf
LSTM:一個(gè)古怪的搜索空間;Klaus Greff等人(論文)
https://arxiv.org/pdf/1503.04069.pdf
原始鏈接:
https://skymind.ai/wiki/lstm
*本文由騰訊新聞和Quantum Bit聯(lián)合制作,作者為Quantum Bit。騰訊新聞同時(shí)開始,未經(jīng)授權(quán)不得轉(zhuǎn)載。
-結(jié)束-
2018中國(guó)人工智能之星創(chuàng)業(yè)公司
1.《循環(huán)神經(jīng)網(wǎng)絡(luò) 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和LSTM初學(xué)者指南 | 入門資料》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無(wú)關(guān),侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。
2.《循環(huán)神經(jīng)網(wǎng)絡(luò) 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和LSTM初學(xué)者指南 | 入門資料》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來(lái)源地址,http://f99ss.com/shehui/1376899.html