今天,我們將討論機(jī)器學(xué)習(xí)中的一個(gè)重要方法——最大似然估計(jì)。
這是一種估計(jì)方法,允許您擬合最大利潤(rùn)函數(shù)模型。
01
最大似然估計(jì)法是什么
最大似然估計(jì)由高斯于1821年提出,費(fèi)希爾于1912年完善。
一般來(lái)說(shuō),最大似然估計(jì)法其實(shí)來(lái)源于生活的點(diǎn)點(diǎn)滴滴。比如有一個(gè)大學(xué)生,他不天天聽(tīng)課,天天玩手機(jī)。老師盯著他看了半天,他也不知道怎么收斂。從老師幾十年的教學(xué)經(jīng)驗(yàn)來(lái)看,這個(gè)男生一定是期末考砸了。果然,他真的失敗了。
老師是通過(guò)過(guò)去大量的類似事件來(lái)判斷現(xiàn)在正在發(fā)生的類似事件,這叫最大似然。
其實(shí)在寫這篇分享的開始,我準(zhǔn)備了很多小故事,希望用幽默的語(yǔ)法,盡可能的給大家講一個(gè)非常抽象的數(shù)學(xué)術(shù)語(yǔ),讓大家都能理解和接受。后來(lái)發(fā)現(xiàn)上面的老師和學(xué)生的例子是最合適的,因?yàn)樗麄冞@樣預(yù)測(cè)過(guò)別人。
好了,故事結(jié)束了,接下來(lái)的就是主菜了。原理看起來(lái)很清楚,但實(shí)際上需要概率論的基礎(chǔ),利用微分來(lái)求極值。
導(dǎo)數(shù)
其實(shí)導(dǎo)數(shù)的概念挺簡(jiǎn)單的。在這里,我們不需要掌握太多關(guān)于微積分的公式,我們只需要知道如何推導(dǎo)。至于基本初等函數(shù)的求導(dǎo),這里可以找到你需要的求導(dǎo)公式。
復(fù)合函數(shù)的求導(dǎo)滿足鏈?zhǔn)椒▌t:
,并求解x,得到的x就是駐點(diǎn),駐點(diǎn)可以通過(guò)代入原函數(shù)得到極值。
02
求解最大似然估計(jì)量的四個(gè)步驟
最后,本文的高潮部分,如何利用最大似然估計(jì)方法找到最大似然估計(jì)量?
首先我們來(lái)看一個(gè)例子:有一個(gè)彩盒,彩盒里有很多紅球和白球,除了顏色完全一樣。每次我們拿出一個(gè),錄下來(lái)放回去。重復(fù)操作十次后,我們發(fā)現(xiàn)有七個(gè)紅球和三個(gè)白球。請(qǐng)估計(jì)一下紅球的比例。
從題目可以分析出,這個(gè)例子滿足二項(xiàng)式分布。現(xiàn)在我們可以將事件A設(shè)置為“紅球”,然后我們可以得到一個(gè)公式:
(1)
現(xiàn)在的目的是找這個(gè)P(A),那么如何快速準(zhǔn)確的找到人才呢?如果用導(dǎo)數(shù)解的駐點(diǎn)求極值,似乎七次方不是很大,那么重復(fù)一百或一千次運(yùn)算呢?所以優(yōu)化算法勢(shì)在必行,下面的騷操作是我們的先輩們經(jīng)過(guò)不懈探索總結(jié)出來(lái)的——先取對(duì)數(shù)再求導(dǎo)!
取公式(1)的對(duì)數(shù),得到:
解決它
從這個(gè)例子中我們可以得到與《概率論與數(shù)理統(tǒng)計(jì)》一書相匹配的抽象結(jié)果:設(shè)種群X為離散型隨機(jī)變量,其概率分布為
其中θ是未知參數(shù)
和
一組樣本和樣本的觀測(cè)值。參數(shù)θ的值應(yīng)使得概率:
是θ的似然函數(shù),上式是其樣本取對(duì)應(yīng)觀測(cè)值的概率。同時(shí),如果有
制作:
然后一個(gè)不知道自己是什么顏色的小家伙偷偷溜了進(jìn)來(lái)
現(xiàn)在,黑藍(lán)紅點(diǎn)群展開了激烈的爭(zhēng)論。這個(gè)小家伙屬于哪一邊?
但是應(yīng)該怎么判斷呢?
一寸想出了一個(gè)絕妙的辦法,記錄自己到每個(gè)色點(diǎn)的距離,然后選擇k個(gè)距離值,畫一個(gè)距離最大的圓作為半徑,自己作為圓心,計(jì)算圓內(nèi)每種顏色占總點(diǎn)數(shù)的概率。概率最大的顏色標(biāo)簽是一寸顏色。
當(dāng)k=2時(shí)
當(dāng)k=6時(shí)
我們可以發(fā)現(xiàn)在有效k值內(nèi),小的那個(gè)有很大的概率是藍(lán)色,所以我們給它一個(gè)藍(lán)色的顏色標(biāo)簽。到目前為止,KNN的基本原則已經(jīng)得到了澄清,所以是時(shí)候發(fā)布一個(gè)C的KNN代碼了
但是還有一個(gè)問(wèn)題:如何選擇一個(gè)最優(yōu)的k值?
這個(gè)問(wèn)題將在基于K-最近鄰算法的KD-樹的詳細(xì)講解中進(jìn)行系統(tǒng)闡述。目前普遍采用交叉驗(yàn)證或貝葉斯。先在這里挖個(gè)坑,然后慢慢填~
04
KNN算法的簡(jiǎn)單實(shí)現(xiàn)
測(cè)試圖表如下:
KNN還有更有趣的方法,比如K-D樹,分治思想下的模型,比較快。
參考文獻(xiàn):
概率和數(shù)理統(tǒng)計(jì)舒天版
維基百科最大似然估計(jì)項(xiàng)——維基百科不能在國(guó)內(nèi)發(fā)表。有兩種方法,一種是換主機(jī),一種是你懂的。
CSDN《馬克唐數(shù)學(xué)符號(hào)》——這篇文章真的是我寫的,幾乎被這些數(shù)學(xué)符號(hào)原地爆炸!
作者簡(jiǎn)介:
淺薄,目前就讀于閩南師范大學(xué),對(duì)國(guó)學(xué)和晨跑感興趣,癡迷機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘,Lisp愛(ài)好者。
1.《極大似然估計(jì) 極大似然估計(jì)法的理解指南》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無(wú)關(guān),侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。
2.《極大似然估計(jì) 極大似然估計(jì)法的理解指南》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來(lái)源地址,http://f99ss.com/fangchan/1285715.html