一.主要目的
雖然大多數(shù)Kaggle競(jìng)賽獲勝者使用各種模型的疊加/聚合,但一個(gè)特定的模式是大多數(shù)聚合部分是梯度提升(GBM)算法的一些變體。以最近一次卡格爾比賽的獲勝者為例:邁克爾·賈勒的解決方案是安全駕駛預(yù)測(cè)中的表征學(xué)習(xí)。他的解決方案是六種模式的混合。1個(gè)light GBM(GBM的變體)和5個(gè)神經(jīng)網(wǎng)絡(luò)。雖然他的成功歸功于他對(duì)結(jié)構(gòu)化數(shù)據(jù)的新的半監(jiān)督學(xué)習(xí),梯度提升模型也發(fā)揮了作用。
雖然GBM被廣泛使用,但許多從業(yè)者仍然將其視為一個(gè)復(fù)雜的黑盒算法,只使用預(yù)先構(gòu)建的庫(kù)運(yùn)行模型。本文的目的是簡(jiǎn)化所謂的復(fù)雜算法,幫助讀者直觀地理解算法。我將解釋梯度提升算法的基本版本,并在最后分享其不同變體的鏈接。我從fast.ai庫(kù)(fastai/courses/ml1/第3課-RF _ foundations.ipynb)獲得了基本的決策樹代碼,最重要的是,我建立了自己的簡(jiǎn)單版本的基本梯度提升模型。
合奏、裝袋和助推簡(jiǎn)述
當(dāng)我們?cè)噲D使用任何機(jī)器學(xué)習(xí)技術(shù)來(lái)預(yù)測(cè)目標(biāo)變量時(shí),實(shí)際值和預(yù)測(cè)值之間的主要差異是噪聲、方差和偏差。整合有助于減少這些因素。
集合只是一組聚集在一起(例如,所有預(yù)測(cè)的平均值)進(jìn)行最終預(yù)測(cè)的預(yù)測(cè)器。我們使用積分的原因是,許多不同的預(yù)測(cè)者試圖比任何單一的預(yù)測(cè)者更好地預(yù)測(cè)同一個(gè)目標(biāo)變量。集成技術(shù)進(jìn)一步分為打包和提升。
打包是一種簡(jiǎn)單的集成技術(shù)。我們建立了許多獨(dú)立的預(yù)測(cè)變量/模型/學(xué)習(xí)者,并使用一些模型平均技術(shù)來(lái)組合它們。(例如加權(quán)平均數(shù)、多數(shù)票或正常平均數(shù))。
我們通常對(duì)每個(gè)模型使用隨機(jī)二次抽樣/自舉數(shù)據(jù),所以所有模型之間幾乎沒(méi)有區(qū)別。每個(gè)觀測(cè)值在所有模型中都有相同的概率。因?yàn)檫@種技術(shù)需要許多不相關(guān)的學(xué)習(xí)者來(lái)制作最終模型,所以通過(guò)減少方差來(lái)減少錯(cuò)誤。Bagging集成的一個(gè)例子是隨機(jī)森林模型。
Boosting是一種集成技術(shù),其中變量不是獨(dú)立的,而是按順序的。
這種技術(shù)使用了后預(yù)測(cè)變量從前預(yù)測(cè)變量的誤差中學(xué)習(xí)的邏輯。因此,觀測(cè)值出現(xiàn)在后續(xù)模型中的概率是不同的,誤差最大的出現(xiàn)頻率最高。預(yù)測(cè)變量可以從一系列模型中選擇,如決策樹、回歸量、分類器等。因?yàn)樾碌念A(yù)測(cè)變量是從以前的預(yù)測(cè)變量所犯的錯(cuò)誤中學(xué)習(xí)出來(lái)的,所以接近實(shí)際預(yù)測(cè)所需的時(shí)間/次數(shù)更少。但一定要慎重選擇停機(jī)判據(jù),否則可能導(dǎo)致訓(xùn)練數(shù)據(jù)的過(guò)擬合。梯度提升是Boosting算法的一個(gè)例子。
圖1。整合
圖2。裝袋和助推。
參考:https://quant dare . com/什么是打包和提升之間的區(qū)別/
二、梯度提升算法
在維基百科的定義中,梯度提升是一種用于回歸和分類問(wèn)題的機(jī)器學(xué)習(xí)技術(shù),它以一組弱預(yù)測(cè)模型(通常是決策樹)的形式生成預(yù)測(cè)模型。
任何監(jiān)督學(xué)習(xí)算法的目標(biāo)都是定義一個(gè)損失函數(shù)并使其最小化。我們來(lái)看看梯度提升算法的數(shù)學(xué)運(yùn)算。假設(shè)我們將均方根誤差定義為:
我們希望我們的預(yù)測(cè)將最小化我們的損失函數(shù)(MSE)。通過(guò)使用梯度下降和基于學(xué)習(xí)率更新我們的預(yù)測(cè),我們可以找到最小均方誤差。
所以我們基本上是更新預(yù)測(cè),讓我們的殘差之和接近于0(或最小值),預(yù)測(cè)值足夠接近實(shí)際值。
第三,梯度改善背后的直覺(jué)
梯度提升背后的邏輯很簡(jiǎn)單(不用數(shù)學(xué)符號(hào)也能直觀理解)。希望看過(guò)這篇文章的人都熟悉簡(jiǎn)單線性回歸模型。
線性回歸的一個(gè)基本假設(shè)是殘差之和為0,即殘差應(yīng)該隨機(jī)分布在0左右。
圖3。抽樣隨機(jī)正態(tài)分布的殘差均值接近于0
現(xiàn)在,這些殘差被認(rèn)為是我們的預(yù)測(cè)模型所犯的錯(cuò)誤。雖然基于樹的模型(以決策樹作為我們梯度提升的基本模型)并不是基于這個(gè)假設(shè),但是如果我們從邏輯上(而不是統(tǒng)計(jì)上)考慮這個(gè)假設(shè),那么我們可能會(huì)證明,如果我們可以看到一些殘差在0左右的模式,我們可以用這個(gè)模式來(lái)擬合模型。
所以梯度提升算法的直覺(jué)是反復(fù)使用殘差模型來(lái)加強(qiáng)預(yù)測(cè)能力弱的模型,使其變得更好。一旦到了殘差沒(méi)有模型可以建模的階段,就可以停止對(duì)殘差建模(否則可能會(huì)導(dǎo)致過(guò)擬合)。從算術(shù)上來(lái)說(shuō),我們正在最小化我們的損失函數(shù),以最小化測(cè)試損失。
總結(jié)一下,
我們首先使用一個(gè)簡(jiǎn)單的模型來(lái)建模數(shù)據(jù),并分析錯(cuò)誤的數(shù)據(jù)。
這些誤差很難用簡(jiǎn)單的模型來(lái)表示數(shù)據(jù)點(diǎn)。
然后,對(duì)于未來(lái)的模型,我們特別注意那些困難的數(shù)據(jù),使它們正確。
最后,我們通過(guò)給每個(gè)預(yù)測(cè)變量賦予一些權(quán)重來(lái)組合所有的預(yù)測(cè)變量。
關(guān)于同樣的邏輯,更技術(shù)性的參考是寫在《概率正確:自然在復(fù)雜世界中學(xué)習(xí)和繁榮的算法》一書中的。“想法是多次使用弱學(xué)習(xí)方法獲得連續(xù)的假設(shè),而每一個(gè)調(diào)整的例子都是之前發(fā)現(xiàn)困難和錯(cuò)誤分類的。但是,請(qǐng)注意,這一點(diǎn)并不明顯。
第四,擬合梯度提升模型的步驟
讓我們想想下面散點(diǎn)圖中顯示的模擬數(shù)據(jù),其中1個(gè)輸入(x)和1個(gè)輸出(y)變量。
圖4。模擬數(shù)據(jù)(x:輸入,y:輸出)
上面顯示的圖表數(shù)據(jù)是使用以下python代碼生成的:
1.對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的線性回歸或決策樹(我在代碼中選擇了決策樹)[將x作為輸入,將y作為輸出]
2.計(jì)算誤差殘差。實(shí)際目標(biāo)值減去預(yù)測(cè)目標(biāo)值[E1 = y _ predicted D1-y]
3.將誤差殘差的新模型作為具有相同輸入變量的目標(biāo)變量[稱為e1_predicted]
4.將預(yù)測(cè)殘差加到以前的預(yù)測(cè)中[y _ predicted 2 = y _ predicted 1+E1 _ predicted]
5.在殘差上擬合另一個(gè)模型。也就是說(shuō),[E2 = y-y _ predicted D2]并重復(fù)步驟2至5,直到開(kāi)始過(guò)擬合或殘差之和變得恒定。通過(guò)持續(xù)檢查驗(yàn)證數(shù)據(jù)的準(zhǔn)確性,可以控制過(guò)度擬合。
為了幫助理解基本概念,下面是一個(gè)從零開(kāi)始完成簡(jiǎn)單梯度提升模型的鏈接。[鏈接:梯度推廣從零開(kāi)始]
共享代碼是非優(yōu)化梯度提升的常見(jiàn)實(shí)現(xiàn)。庫(kù)中的大部分梯度提升模型都得到了很好的優(yōu)化,并且有很多超參數(shù)。
不及物動(dòng)詞工作梯度提升樹的可視化
藍(lán)點(diǎn)(左)是輸入(x)和輸出(y)的關(guān)系。紅線(左)顯示決策樹預(yù)測(cè)的值。綠點(diǎn)(右)顯示第I次迭代的剩余誤差和輸入(x)次迭代的序列。
圖5。梯度提升預(yù)測(cè)的可視化(前4次迭代)
圖6。梯度提升預(yù)測(cè)的可視化(第18次至第20次迭代)
我們觀察到第20次迭代后,殘差隨機(jī)分布在0左右(我不是說(shuō)隨機(jī)正態(tài)分布),我們的預(yù)測(cè)非常接近真實(shí)值。(迭代在sklearn實(shí)現(xiàn)中稱為n _ estimators)。這將是停止或開(kāi)始過(guò)度擬合模型的一個(gè)好點(diǎn)。
讓我們看看我們的模型在第50次迭代中是什么樣子的。
我們可以看到,即使在第50次迭代后,殘差對(duì)x的曲線看起來(lái)與我們?cè)诘?0次迭代中看到的相似。然而,模型變得越來(lái)越復(fù)雜,預(yù)測(cè)過(guò)多的訓(xùn)練數(shù)據(jù)并試圖學(xué)習(xí)每個(gè)訓(xùn)練數(shù)據(jù)。因此,最好在第20次迭代時(shí)停止。
繪制上述所有數(shù)據(jù)的Python代碼片段:
#預(yù)測(cè)后繪圖xa = NP . array(x . x)# x的列名為x order = NP . arg sort(xa)xs = NP . array(xa)[order]ys = NP . array(predf)[order]# epreds = NP . array(epred[:,None])[order] f,(ax1,ax2) = plt .子圖(1,2,sharey=True,figsize = (13,2.5)) ax1 .繪圖(x,y,' o') ax1
1.《boosting 干貨|從零開(kāi)始學(xué)習(xí)Gradient Boosting算法》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無(wú)關(guān),侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。
2.《boosting 干貨|從零開(kāi)始學(xué)習(xí)Gradient Boosting算法》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來(lái)源地址,http://f99ss.com/shehui/1255843.html