成人无码三级片一区二区,亚洲欧美综合精美二区

一.主要目的

雖然大多數(shù)Kaggle競(jìng)賽獲勝者使用各種模型的疊加/聚合，但一個(gè)特定的模式是大多數(shù)聚合部分是梯度提升(GBM)算法的一些變體。以最近一次卡格爾比賽的獲勝者為例:邁克爾·賈勒的解決方案是安全駕駛預(yù)測(cè)中的表征學(xué)習(xí)。他的解決方案是六種模式的混合。1個(gè)light GBM(GBM的變體)和5個(gè)神經(jīng)網(wǎng)絡(luò)。雖然他的成功歸功于他對(duì)結(jié)構(gòu)化數(shù)據(jù)的新的半監(jiān)督學(xué)習(xí)，梯度提升模型也發(fā)揮了作用。

雖然GBM被廣泛使用，但許多從業(yè)者仍然將其視為一個(gè)復(fù)雜的黑盒算法，只使用預(yù)先構(gòu)建的庫(kù)運(yùn)行模型。本文的目的是簡(jiǎn)化所謂的復(fù)雜算法，幫助讀者直觀地理解算法。我將解釋梯度提升算法的基本版本，并在最后分享其不同變體的鏈接。我從fast.ai庫(kù)(fastai/courses/ml1/第3課-RF _ foundations.ipynb)獲得了基本的決策樹代碼，最重要的是，我建立了自己的簡(jiǎn)單版本的基本梯度提升模型。

合奏、裝袋和助推簡(jiǎn)述

當(dāng)我們?cè)噲D使用任何機(jī)器學(xué)習(xí)技術(shù)來(lái)預(yù)測(cè)目標(biāo)變量時(shí)，實(shí)際值和預(yù)測(cè)值之間的主要差異是噪聲、方差和偏差。整合有助于減少這些因素。

集合只是一組聚集在一起(例如，所有預(yù)測(cè)的平均值)進(jìn)行最終預(yù)測(cè)的預(yù)測(cè)器。我們使用積分的原因是，許多不同的預(yù)測(cè)者試圖比任何單一的預(yù)測(cè)者更好地預(yù)測(cè)同一個(gè)目標(biāo)變量。集成技術(shù)進(jìn)一步分為打包和提升。

打包是一種簡(jiǎn)單的集成技術(shù)。我們建立了許多獨(dú)立的預(yù)測(cè)變量/模型/學(xué)習(xí)者，并使用一些模型平均技術(shù)來(lái)組合它們。(例如加權(quán)平均數(shù)、多數(shù)票或正常平均數(shù))。

我們通常對(duì)每個(gè)模型使用隨機(jī)二次抽樣/自舉數(shù)據(jù)，所以所有模型之間幾乎沒(méi)有區(qū)別。每個(gè)觀測(cè)值在所有模型中都有相同的概率。因?yàn)檫@種技術(shù)需要許多不相關(guān)的學(xué)習(xí)者來(lái)制作最終模型，所以通過(guò)減少方差來(lái)減少錯(cuò)誤。Bagging集成的一個(gè)例子是隨機(jī)森林模型。

Boosting是一種集成技術(shù)，其中變量不是獨(dú)立的，而是按順序的。

這種技術(shù)使用了后預(yù)測(cè)變量從前預(yù)測(cè)變量的誤差中學(xué)習(xí)的邏輯。因此，觀測(cè)值出現(xiàn)在后續(xù)模型中的概率是不同的，誤差最大的出現(xiàn)頻率最高。預(yù)測(cè)變量可以從一系列模型中選擇，如決策樹、回歸量、分類器等。因?yàn)樾碌念A(yù)測(cè)變量是從以前的預(yù)測(cè)變量所犯的錯(cuò)誤中學(xué)習(xí)出來(lái)的，所以接近實(shí)際預(yù)測(cè)所需的時(shí)間/次數(shù)更少。但一定要慎重選擇停機(jī)判據(jù)，否則可能導(dǎo)致訓(xùn)練數(shù)據(jù)的過(guò)擬合。梯度提升是Boosting算法的一個(gè)例子。

圖1。整合

圖2。裝袋和助推。

參考:https://quant dare . com/什么是打包和提升之間的區(qū)別/

二、梯度提升算法

在維基百科的定義中，梯度提升是一種用于回歸和分類問(wèn)題的機(jī)器學(xué)習(xí)技術(shù)，它以一組弱預(yù)測(cè)模型(通常是決策樹)的形式生成預(yù)測(cè)模型。

任何監(jiān)督學(xué)習(xí)算法的目標(biāo)都是定義一個(gè)損失函數(shù)并使其最小化。我們來(lái)看看梯度提升算法的數(shù)學(xué)運(yùn)算。假設(shè)我們將均方根誤差定義為:

我們希望我們的預(yù)測(cè)將最小化我們的損失函數(shù)(MSE)。通過(guò)使用梯度下降和基于學(xué)習(xí)率更新我們的預(yù)測(cè)，我們可以找到最小均方誤差。

所以我們基本上是更新預(yù)測(cè)，讓我們的殘差之和接近于0(或最小值)，預(yù)測(cè)值足夠接近實(shí)際值。

第三，梯度改善背后的直覺(jué)

梯度提升背后的邏輯很簡(jiǎn)單(不用數(shù)學(xué)符號(hào)也能直觀理解)。希望看過(guò)這篇文章的人都熟悉簡(jiǎn)單線性回歸模型。

線性回歸的一個(gè)基本假設(shè)是殘差之和為0，即殘差應(yīng)該隨機(jī)分布在0左右。

圖3。抽樣隨機(jī)正態(tài)分布的殘差均值接近于0

現(xiàn)在，這些殘差被認(rèn)為是我們的預(yù)測(cè)模型所犯的錯(cuò)誤。雖然基于樹的模型(以決策樹作為我們梯度提升的基本模型)并不是基于這個(gè)假設(shè)，但是如果我們從邏輯上(而不是統(tǒng)計(jì)上)考慮這個(gè)假設(shè)，那么我們可能會(huì)證明，如果我們可以看到一些殘差在0左右的模式，我們可以用這個(gè)模式來(lái)擬合模型。

所以梯度提升算法的直覺(jué)是反復(fù)使用殘差模型來(lái)加強(qiáng)預(yù)測(cè)能力弱的模型，使其變得更好。一旦到了殘差沒(méi)有模型可以建模的階段，就可以停止對(duì)殘差建模(否則可能會(huì)導(dǎo)致過(guò)擬合)。從算術(shù)上來(lái)說(shuō)，我們正在最小化我們的損失函數(shù)，以最小化測(cè)試損失。

總結(jié)一下，

我們首先使用一個(gè)簡(jiǎn)單的模型來(lái)建模數(shù)據(jù)，并分析錯(cuò)誤的數(shù)據(jù)。

這些誤差很難用簡(jiǎn)單的模型來(lái)表示數(shù)據(jù)點(diǎn)。

然后，對(duì)于未來(lái)的模型，我們特別注意那些困難的數(shù)據(jù)，使它們正確。

最后，我們通過(guò)給每個(gè)預(yù)測(cè)變量賦予一些權(quán)重來(lái)組合所有的預(yù)測(cè)變量。

關(guān)于同樣的邏輯，更技術(shù)性的參考是寫在《概率正確:自然在復(fù)雜世界中學(xué)習(xí)和繁榮的算法》一書中的。“想法是多次使用弱學(xué)習(xí)方法獲得連續(xù)的假設(shè)，而每一個(gè)調(diào)整的例子都是之前發(fā)現(xiàn)困難和錯(cuò)誤分類的。但是，請(qǐng)注意，這一點(diǎn)并不明顯。

第四，擬合梯度提升模型的步驟

讓我們想想下面散點(diǎn)圖中顯示的模擬數(shù)據(jù)，其中1個(gè)輸入(x)和1個(gè)輸出(y)變量。

圖4。模擬數(shù)據(jù)(x:輸入，y:輸出)

上面顯示的圖表數(shù)據(jù)是使用以下python代碼生成的:

1.對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的線性回歸或決策樹(我在代碼中選擇了決策樹)[將x作為輸入，將y作為輸出]

2.計(jì)算誤差殘差。實(shí)際目標(biāo)值減去預(yù)測(cè)目標(biāo)值[E1 = y _ predicted D1-y]

3.將誤差殘差的新模型作為具有相同輸入變量的目標(biāo)變量[稱為e1_predicted]

4.將預(yù)測(cè)殘差加到以前的預(yù)測(cè)中[y _ predicted 2 = y _ predicted 1+E1 _ predicted]

5.在殘差上擬合另一個(gè)模型。也就是說(shuō)，[E2 = y-y _ predicted D2]并重復(fù)步驟2至5，直到開(kāi)始過(guò)擬合或殘差之和變得恒定。通過(guò)持續(xù)檢查驗(yàn)證數(shù)據(jù)的準(zhǔn)確性，可以控制過(guò)度擬合。

為了幫助理解基本概念，下面是一個(gè)從零開(kāi)始完成簡(jiǎn)單梯度提升模型的鏈接。[鏈接:梯度推廣從零開(kāi)始]

共享代碼是非優(yōu)化梯度提升的常見(jiàn)實(shí)現(xiàn)。庫(kù)中的大部分梯度提升模型都得到了很好的優(yōu)化，并且有很多超參數(shù)。

不及物動(dòng)詞工作梯度提升樹的可視化

藍(lán)點(diǎn)(左)是輸入(x)和輸出(y)的關(guān)系。紅線(左)顯示決策樹預(yù)測(cè)的值。綠點(diǎn)(右)顯示第I次迭代的剩余誤差和輸入(x)次迭代的序列。

圖5。梯度提升預(yù)測(cè)的可視化(前4次迭代)

圖6。梯度提升預(yù)測(cè)的可視化(第18次至第20次迭代)

我們觀察到第20次迭代后，殘差隨機(jī)分布在0左右(我不是說(shuō)隨機(jī)正態(tài)分布)，我們的預(yù)測(cè)非常接近真實(shí)值。(迭代在sklearn實(shí)現(xiàn)中稱為n _ estimators)。這將是停止或開(kāi)始過(guò)度擬合模型的一個(gè)好點(diǎn)。

讓我們看看我們的模型在第50次迭代中是什么樣子的。

我們可以看到，即使在第50次迭代后，殘差對(duì)x的曲線看起來(lái)與我們?cè)诘?0次迭代中看到的相似。然而，模型變得越來(lái)越復(fù)雜，預(yù)測(cè)過(guò)多的訓(xùn)練數(shù)據(jù)并試圖學(xué)習(xí)每個(gè)訓(xùn)練數(shù)據(jù)。因此，最好在第20次迭代時(shí)停止。

繪制上述所有數(shù)據(jù)的Python代碼片段:

#預(yù)測(cè)后繪圖xa = NP . array(x . x)# x的列名為x order = NP . arg sort(xa)xs = NP . array(xa)[order]ys = NP . array(predf)[order]# epreds = NP . array(epred[:，None])[order] f，(ax1，ax2) = plt .子圖(1，2，sharey=True，figsize = (13，2.5)) ax1 .繪圖(x，y，' o') ax1

1.《boosting 干貨｜從零開(kāi)始學(xué)習(xí)Gradient Boosting算法》援引自互聯(lián)網(wǎng)，旨在傳遞更多網(wǎng)絡(luò)信息知識(shí)，僅代表作者本人觀點(diǎn)，與本網(wǎng)站無(wú)關(guān)，侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。

2.《boosting 干貨｜從零開(kāi)始學(xué)習(xí)Gradient Boosting算法》僅供讀者參考，本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí)，對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。

3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來(lái)源地址，http://f99ss.com/shehui/1255843.html