神經(jīng)網(wǎng)絡(luò)的注意機制已經(jīng)引起了廣泛的關(guān)注。在本文中,我將嘗試尋找不同機制的共同點和用例,并解釋兩種軟視覺注意的原理和實現(xiàn)。
什么是關(guān)注?
一般來說,神經(jīng)網(wǎng)絡(luò)的注意機制是一個能聚焦于其輸入(或特征)并能選擇特定輸入的神經(jīng)網(wǎng)絡(luò)。我們設(shè)置輸入為x∈Rd,特征向量為z∈Rk,a∈[0,1]k為注意向量,fφ(x)為注意網(wǎng)絡(luò)。一般來說,實施注意事項如下:
a=fφ(x)
或者za=a⊙z
在上式[1]中,⊙表示元素乘法的運算。這里介紹一下軟注意和硬注意的概念。前者是指相乘時值的掩碼是從0到1,后者是指強制將值的掩碼分為0或1,即a∑{ 0,1} k,對于后者,我們可以用心偽裝指數(shù)特征向量:za=z[a]。這增加了它的尺寸。
為了理解注意力的重要性,我們需要考慮神經(jīng)網(wǎng)絡(luò)的本質(zhì)——它是一個函數(shù)逼近器。根據(jù)其架構(gòu),它可以近似不同類型的功能。神經(jīng)網(wǎng)絡(luò)一般用在鏈式矩陣乘法和對應(yīng)元素的框架中,輸入或特征向量只在加法時相互作用。
注意機制可用于計算可用于特征倍增的掩模。這個操作極大地擴展了神經(jīng)網(wǎng)絡(luò)逼近的函數(shù)空,使得一個新的用例成為可能。
視覺注意力
注意力可以應(yīng)用于各種類型的輸入,而不管它們的形狀如何。在像圖像這樣的矩陣值輸入的情況下,我們引入了視覺注意的概念。I∈RH*W和g∈Rh*w定義為驚鴻一瞥,即對圖像應(yīng)用注意機制。
用力注意
硬注意圖像已經(jīng)應(yīng)用了很長時間,例如圖像裁剪。它的概念很簡單,只需要做索引。硬注意可以在Python和TensorFlow中實現(xiàn)為:
以上形式的問題是不可微。如果你想知道模型的參數(shù),你必須借助分數(shù)函數(shù)估計器。
軟注意
在注意力的最簡單變體中,軟注意力與公式[1]中實現(xiàn)的向量值特征沒有什么不同?!墩故?、注意和講述:視覺注意下的神經(jīng)圖像字幕生成》一文記錄了它的早期應(yīng)用。
論文地址:
https://arxiv.org/abs/1502.03044
我將這種機制應(yīng)用到最近一篇關(guān)于物體跟蹤的RNN注意力的論文中,這篇論文是關(guān)于HART(分層注意力重復(fù)跟蹤)的。
論文地址:
https://arxiv.org/abs/1706.09262
這里舉個例子,左邊是輸入圖像,右邊是關(guān)注,顯示的是綠色主圖像上的方框。
以下代碼字符串允許您在TensorFlow中為小批量樣本創(chuàng)建上述矩陣值掩碼。如果要創(chuàng)建Ay,可以稱之為Ay = gaussian_mask(u,s,d,H,H),其中u,s,d分別表示μ,σ,d,以像素為單位用這種方式指定。
我們還可以編寫一個函數(shù),直接從圖像中提取圖像:
空間轉(zhuǎn)換器
空間轉(zhuǎn)換器(STN)允許更一般的轉(zhuǎn)換,并可以區(qū)分圖像裁剪。圖像裁剪也是可能的用例之一,由網(wǎng)格生成器和采樣器兩部分組成。網(wǎng)格生成器指定采樣點的網(wǎng)格,采樣器就是一個樣本。TensorFlow在DeepMind最新的神經(jīng)網(wǎng)絡(luò)庫Sonnet中實現(xiàn)非常簡單。
高斯注意力與空間轉(zhuǎn)換器
高斯注意和空間轉(zhuǎn)換器行為相似,如何判斷選擇哪種實現(xiàn)方式?以下是一些細微的區(qū)別:
高斯注意是一種超參數(shù)裁剪機制,需要6個參數(shù)但只有4個自由度(y,x,高,寬)。STN只需要四個參數(shù)。
我還沒有運行任何測試,但是STN應(yīng)該會更快。它依賴于采樣點的線性插值,而高斯注意需要進行兩次矩陣乘法。
高斯注意力應(yīng)該更容易訓(xùn)練。這是因為,結(jié)果是,一瞥中的每個像素可以是源圖像中相對較大的像素塊的凸組合,這使得更容易找到錯誤。另一方面,STN依賴于線性插值,每個采樣點的梯度不僅僅在最近的兩個像素處為零。
結(jié)論
注意機制擴展了神經(jīng)網(wǎng)絡(luò)的功能,可以逼近更復(fù)雜的函數(shù)?;蛘吒庇^的說,它可以專注于輸入的特定部分,提高自然語言基準測試的性能,并帶來新的功能,如圖像字幕、記憶網(wǎng)絡(luò)中的地址、神經(jīng)程序等。
在我看來,注意力最重要的應(yīng)用案例還沒有被發(fā)現(xiàn)。比如我們知道視頻中的物體是一致連貫的,不會一幀一幀的突然消失。注意力機制可以用來表達這種一致性。至于它的后續(xù)發(fā)展,我會留意的。
1.《attention機制 Attention!神經(jīng)網(wǎng)絡(luò)中的注意機制到底是什么?》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《attention機制 Attention!神經(jīng)網(wǎng)絡(luò)中的注意機制到底是什么?》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/caijing/796294.html