論文摘要:
隨著大型網(wǎng)絡模型和大量數(shù)據(jù)訓練集的重要性日益增加,GPU在神經(jīng)網(wǎng)絡訓練中變得越來越重要。這主要是因為傳統(tǒng)的優(yōu)化算法依賴于隨機梯度法,隨機梯度法在計算集群中的大量核心時沒有很好的擴展。此外,所有梯度法的收斂性,包括批處理法,都存在一些共同的問題,如飽和效應、調(diào)整不良、鞍點等。
本文討論了一種非常規(guī)訓練方法,該方法利用交替方向法和伯格曼迭代法訓練網(wǎng)絡,不需要梯度下降步驟。這種方法減少了網(wǎng)絡訓練的問題,并將其簡化為一系列最小的子步驟,每個子步驟都可以用封閉的方式全局求解。這種方法的優(yōu)點是它繞過了許多考慮,這將導致梯度方法在高度非凸的問題上進展緩慢。這種方法在分布式環(huán)境下表現(xiàn)出很強的可擴展性,即使分散成幾千萬個內(nèi)核也能產(chǎn)生線性加速。
正式介紹
隨著硬件和算法的發(fā)展,神經(jīng)網(wǎng)絡在許多機器學習任務中的性能正在提高。尤其是在這樣的應用中,進步非常明顯:可以用海量的數(shù)據(jù)掌握參數(shù)多的模型。因為來自大數(shù)據(jù)集的結果在很多機器學習任務中總能超越最先進的方法,所以研究者愿意購買GPU等硬件,花費大量時間訓練模型和優(yōu)化參數(shù)。
基于梯度的訓練方法有幾個特點,需要專門的硬件來滿足這些特點。首先,雖然大量數(shù)據(jù)可以分布在多個內(nèi)核中,但現(xiàn)有的優(yōu)化方法仍然要并行忍受。其次,訓練神經(jīng)網(wǎng)絡需要優(yōu)化非凸目標,非凸目標會有鞍點、缺乏條件和梯度耗散。所有這些都降低了基于梯度的方法的速度,例如隨機梯度下降、共軛梯度和BFGS。之前介紹了幾種避免這一問題的緩解方法,包括解決線性單位問題(RELU)(奈爾和:辛頓,2010)、長短期記憶網(wǎng)絡(Hochriter & Schmidhuber,1997)、RPROP(Riedmiller & amp;布勞恩,1993)等等,但最根本的問題仍然存在。
本文介紹了一種訓練神經(jīng)網(wǎng)絡參數(shù)的新方法,該方法采用了交替方向乘子算法(ADMM)和布雷格曼迭代法。它解決了傳統(tǒng)梯度法面臨的幾個問題。當跨核數(shù)據(jù)并行時,它表現(xiàn)出線性擴展的能力,對梯度飽和和缺乏條件具有魯棒性。該方法還將網(wǎng)絡訓練分解為一系列子步驟,每一步都可以通過全局最優(yōu)性求解。該方法的可擴展性,以及避免局部極小化和全局求解每個子步驟的能力,可以達到快速加速訓練的效果。
在第二章中,我們開始介紹這種方法的數(shù)學符號和背景,并討論了我們要解決的基于梯度的方法的幾個弱點。第三章和第四章介紹和描述了我們的優(yōu)化方法,第五章和第六章詳細解釋了分布式實現(xiàn)。在第七章中,通過處理兩個不同類型和不同難度的問題,給出了一種新方法與由標準實現(xiàn)的幾種基于梯度的方法的實驗比較。最后,第八章討論了本文的貢獻和今后的工作。
論文鏈接:https://arxiv.org/pdf/1605.02026v1.pdf
機器心,最專業(yè)的前沿科技媒體和工業(yè)服務平臺,每天提供高質量的工業(yè)信息和深度思考。歡迎您關注微信公眾號“幾乎人類2014”,或登錄www.almosthuman.cn機器之心網(wǎng)站查看更多精彩內(nèi)容。
1.《admm 無梯度下降來訓練神經(jīng)網(wǎng)絡:一個可擴展的ADMM途徑》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡信息知識,僅代表作者本人觀點,與本網(wǎng)站無關,侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《admm 無梯度下降來訓練神經(jīng)網(wǎng)絡:一個可擴展的ADMM途徑》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉載時請保留本站內(nèi)容來源地址,http://f99ss.com/junshi/1594293.html