AI課開始,只有你!
很多人說,看了更多的文章,沒有人教,AI還是很難真正入門。為了用最簡單的方式向大家呈現(xiàn)AI知識體系,從本周開始,新軍邀請AI專業(yè)人士開設(shè)“周末學(xué)習(xí)班”——每周深入分析AI學(xué)習(xí)中的一個關(guān)鍵問題,課程分為理論文章和代碼文章,理論和實踐并重。
加油,退出讓你廢寢忘食的游戲頁面,取消只吃海塞的周末聚會。你和你以后的同齡人的區(qū)別可能會從這個每個周末的AI課開始!
核心閱讀的讀者交流群,請加一個小微信號:知止諸暨。等你。后臺回復(fù)“周末AI類”,查看相關(guān)源代碼。
全文2405字,預(yù)計學(xué)習(xí)時間5分鐘
復(fù)習(xí)信息熵
當(dāng)我們在非參數(shù)模型中引入決策樹時,我們引入了自信息和信息熵的概念。
? 自信息(self-information):,是從概率角度出發(fā)對信息量的刻畫。對概率取對數(shù),是為了滿足聯(lián)合概率的信息的可加性,即兩個事件均發(fā)生的概率要相乘,但反映在信息量上要相加;再取負(fù)值,是因為小概率的事件信息量更大,大概率事件的信息量更小。自我信息:,是從概率角度對信息量的表征。概率的對數(shù)是為了滿足聯(lián)合概率信息的可加性,即兩個事件發(fā)生的概率要相乘,但要在信息量上相加;因為小概率事件的信息較大,大概率事件的信息較小,所以再次取負(fù)值。
? 信息熵(Information Entropy):,是自信息的期望值,即來自于一個概率分布的自信息的加權(quán)平均。信息熵:,是自我信息的期望值,即來自某一概率分布的自我信息的加權(quán)平均值。
我們得到的熵是自變量的函數(shù)。當(dāng)自變量均勻分布時,會得到最大值。當(dāng)均勻分布時,自變量在可能狀態(tài)下的概率相等,所以我們稱均勻分布為等概率分布。在均勻分布下,可以進一步增加變量的可能狀態(tài)數(shù)來增加變量的不確定性,變量的不確定性越大,對應(yīng)的信息熵越大。這就是為什么我們使用信息增益率來提高決策樹的信息熵。就有:如果兩個變量相互獨立,因為有:
即兩個自變量攜帶的熵之和就是它們聯(lián)合分布的熵。我們也會在很多地方看到所謂的互信息,它在信息熵的基礎(chǔ)上變得非常容易理解,把兩個隨機變量的熵分別相加,減去它們的聯(lián)合熵:如果不為零,說明兩個隨機變量不是相互獨立的。值越高,關(guān)聯(lián)度越高。
如果兩個可能出現(xiàn)的隨機變量之間存在依賴關(guān)系,那么就存在條件概率和條件熵:
我們可以把條件熵理解為一個隨機變量在另一個特定隨機變量下的條件熵取所有可能性的結(jié)果,第一個公式右邊要求和的熵就是為特定X定義的條件熵,最后我們對所有X下的條件熵進行加權(quán)平均,得到最終的條件熵。本質(zhì)上可以理解為條件熵在已知隨機變量x的前提下描述隨機變量y的信息熵,這也說明條件熵本身是不對稱的。
我們可以擴展它以獲得:
對比聯(lián)合熵的公式和自信息的定義,我們可以將條件熵的公式理解為,我們只是將聯(lián)合熵的自信息變?yōu)殡S機變量x的分布與聯(lián)合分布的差,就得到了條件熵。如果隨機變量x的分布與聯(lián)合分布一致,說明,條件熵為零。條件熵衡量的正是隨機變量x與聯(lián)合分布的差異!將聯(lián)合熵的公式與自信息的定義進行比較,可以理解條件熵的公式,即我們只需要將聯(lián)合熵的自信息轉(zhuǎn)化為隨機變量x的分布與聯(lián)合分布的差值,就可以得到條件熵。如果隨機變量x的分布符合聯(lián)合分布,則條件熵為零。條件熵衡量隨機變量x和聯(lián)合分布的區(qū)別!
我們可以繼續(xù)把對數(shù)內(nèi)的除法改成對數(shù)外的減法,就可以得到:我們可以將其理解為,存在兩個隨機變量的系統(tǒng)熵就是聯(lián)合熵,當(dāng)我們確定了其中一個變量,不確定程度就減弱了,那么這個變量所攜帶的熵就可以被減去,得到的正是條件熵。正好與相對應(yīng)。我們可以理解為兩個隨機變量的系統(tǒng)熵就是聯(lián)合熵。當(dāng)我們確定其中一個變量時,不確定度被削弱,那么這個變量攜帶的熵就可以被減去,得到條件熵。正好對應(yīng)。
相對熵和交叉熵
如果能通過信息熵順利理解互信息和條件熵,那么相對熵和交叉熵就變得很簡單了。
互信息的方法給我們提供了一個非常重要的思路。我們可以通過概率分布的信息熵來比較兩個分布的依賴性質(zhì),那么我們也可以通過信息熵來比較兩個分布的差異嗎?
有人認(rèn)為可以通過對兩個分布的信息熵做一個差值來間接度量分布的差異,但只能比較兩個分布的不確定性,不能比較分布本身的差異。如上所述,條件熵度量的是隨機變量和聯(lián)合分布的差異,所以當(dāng)推廣到其他分布時,我們只需要改變自身信息就可以達到度量分布差異的目的!
所謂相對熵,也叫KL散度,就是把自我信息變成兩個分布的差來衡量分布的差,假設(shè)兩個分布p和q:
得到了在一定分布下,作為自我信息的分布差的期望值。從公式中可以看出,相對熵是不對稱的,即:
我們不需要編碼長度的知識來理解這種不對稱性。我們只需要用一個我們已經(jīng)知道的事實,就是一般情況下條件熵本身是不對稱的。我們把Q看作聯(lián)合分布或者P看作聯(lián)合分布,得到了兩個條件熵。
如果我們在相對熵的基礎(chǔ)上加上某一分布的信息熵,就會得到交叉熵:
交叉熵常用作損失函數(shù)。在前一節(jié)中,我們給出了sigmoid函數(shù)作為伯努利分布的邏輯回歸的最大似然估計。如果我們用交叉熵作為損失函數(shù),假設(shè)概率由sigmoid函數(shù)給出,實際概率由數(shù)據(jù)給出:
最小化它自然可以得到最大似然估計的形式,因為我們可以根據(jù)交叉熵的定義直接寫出:
最大熵原理
在物理熱力學(xué)中,經(jīng)典粒子在等概率原理下的玻爾茲曼分布實際上對應(yīng)的是最大熵原理,因為等概率對應(yīng)的是均勻分布。在很多情況下,假設(shè)高熵分布,保持盡可能多的不確定性,就像骰子一樣,是最安全的。如果你對它的信息一無所知,自然會假設(shè)它的六個面的概率都為零。比如我們常用的高斯分布,就是在標(biāo)準(zhǔn)差和均值已知的前提下,熵最大的分布。
我們用指數(shù)分布和廣義線性模型來推導(dǎo)軟極大值函數(shù),但同時也可以根據(jù)最大熵模型給出軟極大值函數(shù)。
很多教材都會詳細(xì)講解約束優(yōu)化下最大熵原理推導(dǎo)出來的推論。由于篇幅所限,這里就不詳細(xì)解釋了,只用一個很重要的結(jié)論。我們用I來標(biāo)記樣本,用J來標(biāo)記可能的結(jié)果,那么最大熵模型將給出:
其中是參數(shù),是特征函數(shù)。當(dāng)我們將參數(shù)和特征函數(shù)均視為一個向量,向量的長度就是樣本的個數(shù)。其中是參數(shù),是特征函數(shù)。當(dāng)我們把參數(shù)和特征函數(shù)都看作一個向量時,向量的長度就是樣本的個數(shù)。
特征函數(shù)的選擇不是唯一的。我們可以選擇簡單的二進制形式。樣本的目標(biāo)值滿足一定關(guān)系,函數(shù)值為X,否則為0。比如一個二元分類問題,當(dāng)y等于其中一個類別時,函數(shù)值為x,其余為0。當(dāng)我們把參數(shù)和特征函數(shù)都看作一個向量時,向量的長度就是樣本的個數(shù)。假設(shè)類別標(biāo)記為{0,1},導(dǎo)出是非常自然的:
得到了sigmoid函數(shù),如果繼續(xù)推廣到多重分類,就可以得到softmax函數(shù)。
留言贊朋友圈
我們來討論一下AI落地的最后一英里
如需轉(zhuǎn)載,請在后臺留言并遵守轉(zhuǎn)載規(guī)范
1.《entropy 【周末AI課堂】深度學(xué)習(xí)中的熵(理論篇)| 機器學(xué)習(xí)你會遇到的“坑”》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《entropy 【周末AI課堂】深度學(xué)習(xí)中的熵(理論篇)| 機器學(xué)習(xí)你會遇到的“坑”》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/junshi/1588859.html