更深的句子,請(qǐng)注意以下幾點(diǎn)。

作者簡(jiǎn)介:杰西克拉克

研究相位恢復(fù)的物理學(xué)家、數(shù)據(jù)科學(xué)家,有豐富的建設(shè)網(wǎng)站和移動(dòng)應(yīng)用程序設(shè)計(jì)經(jīng)驗(yàn),在創(chuàng)業(yè)公司有豐富的經(jīng)驗(yàn),對(duì)創(chuàng)業(yè)有很大的熱情。

Github:

Linkedin:

相位恢復(fù)(PR)包括給定幅度信息和

在實(shí)際空間限制中尋找復(fù)函數(shù)(通常是傅里葉空間)的相位[1]。

PR作為非凸優(yōu)化問題,已經(jīng)成為大量工作[1,2,3,4,5,6,9]的主題,成為晶體學(xué)的支柱,是結(jié)構(gòu)生物學(xué)的中堅(jiān)力量。

以下是PR重建過程的示例,其中3D色散數(shù)據(jù)(Fourier Point)顯示了重建真實(shí)空間3D密度的納米晶體[15]。

大多數(shù)PR問題的成功算法是在凸優(yōu)化投影中受凸集啟發(fā)的基于投影的方法[10]?;谕队暗姆椒ㄔ赑R中取得了成功,所以探索是否可以用類似的方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

交替投影

凸集投影(POCS)是找到凸集之間交點(diǎn)的有用方法。上面顯示了一個(gè)具有兩個(gè)凸約束集C1(紅色)和C2(藍(lán)色)的簡(jiǎn)單示例。通過簡(jiǎn)單的迭代映射,連續(xù)投影每一組,以找到交點(diǎn)。

其中p是每組的投影。投影為冪等PP=P,距離最小化。

p(x)=到y(tǒng)

最低限度;最低限度。

滿足下食就能找到解決辦法。

約束集不凸時(shí),很少得出一般結(jié)論。因此,使用簡(jiǎn)單的替換投影可能會(huì)導(dǎo)致本地最小值停止。以下是一個(gè)設(shè)置為不凸且查找相交(全局最小)的能力嚴(yán)重依賴初始推測(cè)值的例子。

集合不凸,失去保護(hù),但投影方法被證明是尋找非凸優(yōu)化問題解決方案的有效方法。例如數(shù)獨(dú)、N皇后問題、圖形著色、相位檢索等[4,10]。

差異圖

最成功的非凸投影算法之一可以寫成差分圖(DM)[4,8]

其中

其中y1和y2稱為估計(jì)。一旦到達(dá)頂點(diǎn):

cle.detail&_iz=31825&index=9" width="221" height="50"/>

這意味著兩個(gè)估計(jì)等價(jià)于解決方案;

差異圖通過作為泛化或等價(jià)特定超參數(shù),關(guān)聯(lián)了PR文獻(xiàn)中許多的不同算法[1,3,6],不于上述形式,簡(jiǎn)單版本的差異圖經(jīng)常被使用:

這種更簡(jiǎn)單的版本通常表現(xiàn)良好,并減少每次迭代所需的投影數(shù)量(投影的順序也可以切換)。公式中的2P2-I項(xiàng)也被稱為反射操作,出現(xiàn)在許多投影算法中[9]。

同樣的非凸問題如下圖所示,但使用差分映射算法后不會(huì)被困在局部最小值中,而是能夠逃脫并搜索更多的解空間,最后收斂于一個(gè)解決方案。

分治算法

差異圖先前被定義為兩個(gè)投影,那么當(dāng)有兩個(gè)以上時(shí)會(huì)發(fā)生什么呢?在這種情況下,定義一個(gè)新的迭代X,它是n個(gè)重復(fù)連接[10]:

然后定義平均和

直積投影;

其中Pl為第l個(gè)投影,x是加權(quán)和;

那么許多預(yù)測(cè)的差異圖為

更新X:

這種方法被稱為“分治算法”。下面是一個(gè)數(shù)獨(dú)拼圖的迭代例子,其收斂使用了差異圖與分治算法。

數(shù)獨(dú)有4個(gè)約束:每行的數(shù)字為1到9,每列的數(shù)字為1到9,3x3子方格的數(shù)字為1到9,最后數(shù)字與部分填充的模板一致。該代碼實(shí)現(xiàn)這個(gè)例子。

用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的投影

對(duì)差異圖、投影及其在非凸優(yōu)化中的應(yīng)用有了解后,下一步是對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練進(jìn)行預(yù)測(cè)。下例僅考慮一個(gè)分類任務(wù),基本思想是尋找一個(gè)能正確分類數(shù)據(jù)的權(quán)重向量,將數(shù)據(jù)分解成K個(gè)子集:

定義一個(gè)“投影”權(quán)重的投影,使得子集中的所有訓(xùn)練數(shù)據(jù)被正確分類(或者損失為0)。實(shí)際上,使用的是子集的梯度下降來實(shí)現(xiàn)投影(基本上是過度擬合的點(diǎn))。目標(biāo)是獲得能正確分類每個(gè)數(shù)據(jù)子集的權(quán)重,并且要查找這些集合的交集。

結(jié)果

為了測(cè)試訓(xùn)練方案(代碼),使用標(biāo)準(zhǔn)方法[13]訓(xùn)練了一個(gè)小型網(wǎng)絡(luò),并將其與基于投影的方法進(jìn)行比較。小型網(wǎng)絡(luò)使用非常簡(jiǎn)單的層,大約包含22000個(gè)參數(shù); 1個(gè)卷積層,8個(gè)3x3濾波器;2個(gè)子采樣;1個(gè)全連接層(激活函數(shù)為ReLU),有16個(gè)節(jié)點(diǎn);最后softmax有10個(gè)輸出(MNIST的10類)。使用Glorot uniform[11]初始化權(quán)重。

下圖顯示其平均訓(xùn)練和測(cè)試損失曲線:

訓(xùn)練損失曲線

測(cè)試損失函數(shù)

從圖中可以看出效果不錯(cuò)。訓(xùn)練數(shù)據(jù)被分為大小相同的3組,都被用于投影約束。對(duì)于投影而言,需要找到一組最新的權(quán)重,使其與先前一組權(quán)重的距離最小。另外使用梯度下降法進(jìn)行訓(xùn)練,一旦訓(xùn)練數(shù)據(jù)的準(zhǔn)確度達(dá)到99%就終止投影。更新后的權(quán)重投影到3組上產(chǎn)生3個(gè)新的權(quán)重集合,這些集合連接在一起以形成

平均投影可以通過將權(quán)重平均得到,之后進(jìn)行復(fù)制并連接后形成新的向量:

根據(jù)差異圖將這兩個(gè)投影步驟組合以獲得權(quán)重的更新方案。除了常規(guī)度量外,還可以監(jiān)視差異圖誤差來尋找收斂。差異映射誤差由下式定義:

上式值越低,表明解決方案越好。差異圖錯(cuò)誤達(dá)到穩(wěn)定表明已經(jīng)找到了一個(gè)近似的解決方案。差異圖錯(cuò)誤通常在穩(wěn)定前會(huì)突然下降[4],表明找到合適的解決方案。

在上例中,投影是通過訓(xùn)練數(shù)據(jù)子集上的反復(fù)梯度變化定義,本質(zhì)上是過度擬合的點(diǎn)。在下例中,遍歷完一次訓(xùn)練數(shù)據(jù)后就終止投影。

下面顯示的是平均cv測(cè)試和訓(xùn)練誤差(與上述相同的常規(guī)訓(xùn)練相比)

從圖中可以看到這種方法仍然可行,為什么會(huì)這樣呢?如果投影操作提前終止,那么能想到的一點(diǎn)就是簡(jiǎn)單地將該投影視為一個(gè)松弛投影或非最佳投影。凸優(yōu)化和PR的結(jié)果[4,5,7,14]仍然表明,松弛投影或非最佳投影趨于好的解決方案。另外,在單遍歷投影限制中,可以通過交替投影來恢復(fù)傳統(tǒng)的基于梯度下降的訓(xùn)練方案(以3組為例):

最后,常規(guī)訓(xùn)練中的參數(shù)設(shè)置會(huì)對(duì)網(wǎng)絡(luò)的結(jié)果產(chǎn)生很大的影響,具體參數(shù)設(shè)置可以查看原文。訓(xùn)練這樣的網(wǎng)絡(luò)并執(zhí)行提前終止,傳統(tǒng)訓(xùn)練方法的最終損失和準(zhǔn)確度分別為0.0724和97.5%,而使用差異圖方法的結(jié)果分別為0.0628和97.9%。

投影方法的擴(kuò)展

關(guān)于投影方法的好處之一是可以輕松實(shí)現(xiàn)額外的約束。對(duì)于L1正則化而言,可以定義收縮或軟閾值操作,如

其他投影可以是卷積核的對(duì)稱性或權(quán)重的直方圖約束。

其他注意事項(xiàng)

本文還有很多未回答的問題,并沒有深入研究。比如最佳集合數(shù)是多少、投影操作如何工作、近解決方案的平均有助于泛化等問題。雖然還有很多問題需要回答,但是使用相位檢索和非凸投影方法來重新構(gòu)建訓(xùn)練得到了一些有趣的結(jié)果。

參考文獻(xiàn)

[1] J.R. Fienup, "Phase retrieval algorithms: a comparison". Applied Optics 2758-2769 (1982).

[2] H.H. Bauschke, P.L. Combettes, and D.R. Luke, "Phase retrieval, error reduction algorithm, and Fienup variants: a view from convex optimization". Journal of the Optical Society of America A. 19:1334-1345 (2002).

[3] Bauschke H H, Combettes P L and Luke D R "Hybrid projection–reflection method for phase retrieval" J. Opt. Soc. Am. A 20 1025–34 (2003).

[4] V. Elser, 'Phase retrieval by iterated projections', J. Opt. Soc. Am. A/Vol. 20, (2003).

[5] S. Marchesini, H. He, H. N. Chapman, S. P. Hau-Riege, A. Noy, M. R. Howells, U. Weierstall, and J. C. H. Spence, "X-ray image reconstruction from a diffraction pattern alone" Phys. Rev. B 68, 140101 (2003).

[6]Luke Russel D, “Relaxed averaged alternating reflections for diffraction imaging” Inverse problems, 21, 37-50 (2005).

[7] Pierre Thibault, Veit Elser, Chris Jacobsen, David Shapiro and David Sayre, 'Reconstruction of a yeast cell from X-ray diffraction data', Acta. Cryst. (2006).

[8] V. Elser, et al. "Searching with iterated maps" 104 (2), 418-423 (2007).

[9] S. Marchesini, "A unified evaluation of iterative projection algorithms for phase retrieval", Review of Scientific Instruments 78 (2007).

[10] S. Gravel, V. Elser, "Divide and concur: A general approach to constraint satisfaction". Physical Review E. (2008).

[11] X Glorot, Y Bengio, "Understanding the difficulty of training deep feedforward neural networks.", Aistats 9, 249-256 (2010).

[12] Pierre Thibault& Andreas Menzel, "Reconstructing state mixtures from diffraction measurements"", Nature 494, 68–71 (2013).

[13] Diederik Kingma, Jimmy Ba, "Adam - A Method for Stochastic Optimization" (http://arxiv.org/abs/1412.6980v8) (2014).

[14] J. N. Clark, X Huang, RJ Harder, IK Robinson, "Dynamic Imaging Using Ptychography"" Physical Review Letters 112, 113901 (2014).

[15]Jesse N. Clark, Johannes Ihli, Anna S. Schenk, Yi-Yeoun Kim, Alexander N. Kulak, James M. Campbell, Gareth Nisbet, Fiona C. Meldrum & Ian K. Robinson "Three-dimensional imaging of dislocation propagation during crystal growth and dissolution",Nature Materials 14, 780–784 (2015)

本文由北郵@愛可可-愛生活老師推薦,阿里云云棲社區(qū)組織翻譯。

文章原標(biāo)題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

文章為簡(jiǎn)譯,更為詳細(xì)的內(nèi)容,請(qǐng)查看原文

1.《【abs141avi】新穎的訓(xùn)練方法——用迭代投影算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。

2.《【abs141avi】新穎的訓(xùn)練方法——用迭代投影算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。

3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來源地址,http://f99ss.com/auto/2956853.html