作者|孟讓
轉載自知
導語:遵循“從韓丁的開創(chuàng)性工作出發(fā),談談知識提煉的最新進展”,作者對知識提煉的重要性做了較為全面的總結。最后一篇文章主要介紹了注意力轉移、FSP矩陣和暗秩,重點是尋找不同形式的“知識”。
本文主要介紹了Tucson 17年發(fā)表的文章《神經(jīng)電性遷移》,總結了注意力和Gram矩陣,利用CGANs制作KD,并以非模型壓縮為目的,介紹了相互學習的KD和重生NN。
論文:
喜歡什么:通過神經(jīng)元選擇性轉移提取知識
https://arxiv.org/pdf/1707.01219.pdf
通過條件對抗網(wǎng)絡的知識提取訓練淺層和薄層網(wǎng)絡加速
https://arxiv.org/pdf/1709.00513.pdf
深度相互學習
https://arxiv.org/pdf/1706.00384.pdf
重生神經(jīng)網(wǎng)絡
https://arxiv.org/pdf/1805.04770.pdf
一、神經(jīng)元選擇性轉移
等號右邊第一項是交叉熵,第二項是加核技能的平方最大平均差損失。MMD損失如下:
g是Gram矩陣,每個元素是
gram矩陣表示空中嵌入的空之間的相似性(前提是需要通道正則化)。
實驗
老師:ResNet1001
學生:盜夢空間
不同核函數(shù)和不同知識提取方法的NTS比較如下:
f()是學生,t是老師,MT是軟標簽法。
2.CGAN師生整體框架
用殘差結構的MLP作為鑒別器,訓練圓盤的損失函數(shù)為二元交叉熵
當然,您也可以使用LSGAN,它聲稱是最容易收斂的:
disc _ loss =(TF . reduce _ mean((disc _ t-1)* * 2)+TF . reduce _ mean((disc _ s-0)* * 2))/2 . gen _ loss = TF . reduce _ mean((disc _ s-1)* * 2)
但是不好意思,訓練還是很難。
根據(jù)輔助分類器GANs的思想,類信息也被應用到分類器中,分類器的輸出是一個C+2維向量。c是類別數(shù)。
Net2是從p2到p1的距離:
如果是多個網(wǎng)絡,比如k >:兩個網(wǎng)絡互相學習,那么每個學生網(wǎng)絡的損失:
BANs是取代這個交叉熵為:
本文還討論了非最大分量在logit中的作用,并利用教師網(wǎng)絡logit加權和非最大分量置亂進行了實驗。
原文鏈接:https://zhuanlan.zhihu.com/p/53864403
◆
◆
1.《知識蒸餾 關于知識蒸餾,這三篇論文詳解不可錯過》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡信息知識,僅代表作者本人觀點,與本網(wǎng)站無關,侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《知識蒸餾 關于知識蒸餾,這三篇論文詳解不可錯過》僅供讀者參考,本網(wǎng)站未對該內容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉載時請保留本站內容來源地址,http://f99ss.com/keji/1323442.html