丝袜人妻一区二区三区_少妇福利无码视频_亚洲理论片在线观看_一级毛片国产A级片

當(dāng)前位置:首頁(yè) > 時(shí)尚生活

決策樹算法 算法|決策樹算法究竟說(shuō)的是什么?

決策樹算法綜述

決策樹算法,顧名思義,是一種用于分類的樹型決策結(jié)構(gòu)。事實(shí)上,決策樹算法在行業(yè)中得到廣泛應(yīng)用,不僅因?yàn)樗哂辛己玫姆诸惸芰Γ匾氖撬哂泻軓?qiáng)的可解釋性,直觀易懂。事實(shí)上,基于決策樹的邏輯結(jié)構(gòu)與現(xiàn)實(shí)社會(huì)環(huán)境中人類的決策邏輯非常相似。例如,有一天,郝斌在思考人生中的三個(gè)主要問題:

這個(gè)思考過(guò)程可以簡(jiǎn)單的用下面的話來(lái)表達(dá):

(1)今天是周末嗎?如果不是周末,不要去,如果是周末,繼續(xù)思考下一個(gè)問題;

(2)這周的工作完成了嗎?如果還沒有完成,就不要走,如果已經(jīng)完成,繼續(xù)思考下一個(gè)問題;

(3)今天是晴天嗎?如果不是晴天,就不要去,如果是晴天,繼續(xù)思考下一個(gè)問題;

(4)你今天能在電影院找到一個(gè)好位置嗎?如果找不到好位置,就不要去了。如果能找到好位置,決定去電影院看電影;

如果思維過(guò)程是以決策樹的形式表達(dá)的,那么它的形式如下:

在這種看電影的決策邏輯中,其實(shí)是由郝斌通過(guò)自己的歷史多次看電影的經(jīng)歷總結(jié)出來(lái)的。這種形式的決策樹算法其實(shí)是一種訓(xùn)練數(shù)據(jù)集,通過(guò)一系列的試題(比如“今天是周末嗎?”)以輸出分類目標(biāo)進(jìn)行判斷。

決策樹的表達(dá)形式非常直觀,容易理解。一般來(lái)說(shuō),決策樹由一個(gè)根節(jié)點(diǎn)、幾個(gè)內(nèi)部節(jié)點(diǎn)和幾個(gè)葉節(jié)點(diǎn)組成。根節(jié)點(diǎn)和內(nèi)部節(jié)點(diǎn)代表相應(yīng)的測(cè)試條件,而葉節(jié)點(diǎn)代表最終的輸出結(jié)果:

(1)根節(jié)點(diǎn):根節(jié)點(diǎn)位于頂層,代表第一個(gè)測(cè)試條件。決策樹只有一個(gè)根節(jié)點(diǎn),根節(jié)點(diǎn)有零個(gè)或多個(gè)輸出邊。

(2)內(nèi)部節(jié)點(diǎn):位于根節(jié)點(diǎn)之下,代表一個(gè)測(cè)試條件。中間節(jié)點(diǎn)有一個(gè)輸入邊和兩個(gè)或多個(gè)輸出邊。

(3)葉節(jié)點(diǎn):決策樹的終端節(jié)點(diǎn),代表決策樹的決策結(jié)果。葉節(jié)點(diǎn)只有一個(gè)傳入邊,但沒有傳出邊。

可以看出,這種樹狀表達(dá)式實(shí)際上可以和前面提到的If-Then規(guī)則相互轉(zhuǎn)換,其中從根節(jié)點(diǎn)到任意葉節(jié)點(diǎn)都會(huì)形成一個(gè)規(guī)則:If“是周末嗎?”=“假”,然后“別走?!?。值得注意的是,決策樹形成的規(guī)則應(yīng)該是互斥且完備的,即對(duì)于任何樣本數(shù)據(jù),只有一個(gè)與之對(duì)應(yīng)的規(guī)則來(lái)輸出分類結(jié)果。

決策樹的生成

在實(shí)際應(yīng)用過(guò)程中,我們不僅僅針對(duì)一個(gè)樣本,而是要從大量的數(shù)據(jù)中找到規(guī)律。所以接下來(lái)的問題就是如何借助決策樹算法總結(jié)內(nèi)在蘊(yùn)涵邏輯?;叵霙Q策樹是用測(cè)試條件劃分屬性的方法,所以決策樹的生成需要先回答兩個(gè)問題:

(1)如何選擇劈裂的試驗(yàn)條件?

(2)什么情況下可以選擇結(jié)束分裂?

總的來(lái)說(shuō),我們分類的目標(biāo)是希望“一個(gè)是一個(gè),一個(gè)是兩個(gè)”。所以我們希望當(dāng)原始數(shù)據(jù)集被一個(gè)測(cè)試條件劃分為兩個(gè)或兩個(gè)以上的數(shù)據(jù)集時(shí),劃分出來(lái)的數(shù)據(jù)集會(huì)更加“純粹”,即劃分后的任何子集都盡可能屬于同一類別。

關(guān)于子集的“純度”,我們可以通過(guò)下面的例子來(lái)理解:

1936年,我們的“漁夫”(R.A.Fisher)提供了虹膜數(shù)據(jù)集,這可能是機(jī)器學(xué)習(xí)領(lǐng)域最著名的分類數(shù)據(jù)集。

從鳶尾山和多色鳶尾中提取13個(gè)樣品,用X(花瓣長(zhǎng)度)和Y(萼片寬度)分割??梢钥闯?,兩種類型的鳶尾都可以通過(guò)花瓣長(zhǎng)度完全準(zhǔn)確的區(qū)分出來(lái),但被萼片寬度分割后仍有混雜的情況。我們可以認(rèn)為特征x劃分的子集純度更高。

顯然,在生成樹模型的過(guò)程中,我們應(yīng)該為每個(gè)劃分選擇能夠使子集更加純粹的劃分條件。隨著數(shù)據(jù)集的不斷劃分,我們子集的純度越來(lái)越高,直到這個(gè)節(jié)點(diǎn)下的樣本屬于同一個(gè)范疇。那么分裂應(yīng)該在什么時(shí)候終止呢?一個(gè)直觀的答案顯然可以是“該節(jié)點(diǎn)下的所有樣本都屬于同一個(gè)類別(無(wú)需劃分)”或者“該節(jié)點(diǎn)下的所有樣本都具有相同的屬性(繼續(xù)劃分并不能提高結(jié)果)”。下圖顯示了決策樹的增長(zhǎng)過(guò)程:

從以上決策樹生長(zhǎng)的流程圖中,我們可以發(fā)現(xiàn)決策樹的生長(zhǎng)重點(diǎn)在于“純度”計(jì)算公式,即如何選擇最優(yōu)的特征過(guò)程。接下來(lái),我們將簡(jiǎn)要介紹不同決策樹算法的劃分方法。

(1)ID3系列算法:采用信息熵作為集合純度的評(píng)價(jià)

假設(shè)我們的樣本集D包含M個(gè)樣本,每個(gè)樣本的比例為

那么集合d的信息熵定義為:

計(jì)算時(shí)定義0log0=0。

ENT(D)越大,集合D的雜質(zhì)度越高,越小。ENT(D)越低,集合D的純度越高。因此,一些文獻(xiàn)提到用信息熵來(lái)衡量樣本集的“不純”純度。

信息熵的一個(gè)流行介紹可以在文章中找到:

(2)CART算法:采用GINI系數(shù)作為采集純度的評(píng)價(jià);

對(duì)于集合d,其純度的相應(yīng)計(jì)算公式為:

其中m是目標(biāo)變量的類別數(shù)。類似于信息熵,基尼指數(shù)越低,代表集純度越高。當(dāng)節(jié)點(diǎn)只包含一個(gè)類別時(shí),基尼系數(shù)取最小值0。5%.

由于每個(gè)算法都有很多內(nèi)容,本期只簡(jiǎn)單介紹決策樹的概念問題,下一期我們將詳細(xì)介紹決策樹中最經(jīng)典的ID3系列算法。

注意:由于老坨最近比較忙,有些消息沒有及時(shí)查看和回復(fù)(微信規(guī)定48小時(shí)內(nèi)沒有回復(fù),不能再回復(fù)),所以如果郝斌老坨沒有及時(shí)回復(fù),可以再留言。

1.《決策樹算法 算法|決策樹算法究竟說(shuō)的是什么?》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無(wú)關(guān),侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。

2.《決策樹算法 算法|決策樹算法究竟說(shuō)的是什么?》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。

3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來(lái)源地址,http://f99ss.com/shehui/1276305.html

上一篇

高圓圓 我沒有任何才藝可以展示 高圓圓:我沒有才藝

下一篇

遼寧明年3月起實(shí)施痛經(jīng)假 痛經(jīng)是什么原因?qū)е碌?/h3>

搜狐校園 第三屆搜狐校園算法大賽開賽!

搜狐校園 第三屆搜狐校園算法大賽開賽!

2019年4月8日,第三屆搜狐校園內(nèi)容識(shí)別算法大賽正式開始,比賽結(jié)果同時(shí)向選手開放。搜狐和清華大學(xué)計(jì)算機(jī)系聯(lián)合發(fā)起了這場(chǎng)比賽,目標(biāo)是全世界的全日制學(xué)生。旨在通過(guò)提供業(yè)務(wù)場(chǎng)景、真實(shí)數(shù)據(jù)、專家指導(dǎo),選拔培養(yǎng)對(duì)自然語(yǔ)言處理領(lǐng)域的算法研究和應(yīng)用探索感興...

速算法口訣 “速算法”,貼墻上給孩子背!學(xué)會(huì)了,數(shù)學(xué)次次100分!

  • 速算法口訣 “速算法”,貼墻上給孩子背!學(xué)會(huì)了,數(shù)學(xué)次次100分!
  • 速算法口訣 “速算法”,貼墻上給孩子背!學(xué)會(huì)了,數(shù)學(xué)次次100分!
  • 速算法口訣 “速算法”,貼墻上給孩子背!學(xué)會(huì)了,數(shù)學(xué)次次100分!
高歌女裝 抖音內(nèi)幕:網(wǎng)紅最多就能火半年 算法令人難以捉摸

高歌女裝 抖音內(nèi)幕:網(wǎng)紅最多就能火半年 算法令人難以捉摸

...

boosting 干貨|從零開始學(xué)習(xí)Gradient Boosting算法

  • boosting 干貨|從零開始學(xué)習(xí)Gradient Boosting算法
  • boosting 干貨|從零開始學(xué)習(xí)Gradient Boosting算法
  • boosting 干貨|從零開始學(xué)習(xí)Gradient Boosting算法

快手播放量是怎么算的 【快手算法】快手短視頻如何提高播放量?

1.發(fā)布時(shí)間段 很多人忽略了這一點(diǎn),因?yàn)橐苿?dòng)用戶的在線數(shù)量在一天的每個(gè)時(shí)間都是不同的,早上、中午和晚上都有很大的差異。Aauto發(fā)表作品的最佳時(shí)間是:早上6點(diǎn);00 - 8;00時(shí),中午11時(shí);00 - 1;00pm 4;00 - 6;00 2...

多節(jié)點(diǎn) 干貨 | 超級(jí)賬本Fabric 1.0 多節(jié)點(diǎn)集群的部署

  • 多節(jié)點(diǎn) 干貨 | 超級(jí)賬本Fabric 1.0 多節(jié)點(diǎn)集群的部署
  • 多節(jié)點(diǎn) 干貨 | 超級(jí)賬本Fabric 1.0 多節(jié)點(diǎn)集群的部署
  • 多節(jié)點(diǎn) 干貨 | 超級(jí)賬本Fabric 1.0 多節(jié)點(diǎn)集群的部署
fool 干貨 | 攻擊AI模型之DeepFool算法

fool 干貨 | 攻擊AI模型之DeepFool算法

白盒攻擊中著名的deep傻瓜算法是什么? 據(jù)《AI科技評(píng)論》:本文是《竇哥帶你學(xué)安全》第三輯,最早發(fā)表在《AI科技評(píng)論》上,未經(jīng)許可不得轉(zhuǎn)載。 總結(jié) 在前面的文章“對(duì)應(yīng)樣本的基本原理”中,我們介紹了生成對(duì)應(yīng)樣本的基本思想,其中一般思想分為白盒攻...

高中物理68個(gè)解題模型 物理很簡(jiǎn)單的!高一到高三簡(jiǎn)單高效的15個(gè)物理算法模型解題大全

  • 高中物理68個(gè)解題模型 物理很簡(jiǎn)單的!高一到高三簡(jiǎn)單高效的15個(gè)物理算法模型解題大全
  • 高中物理68個(gè)解題模型 物理很簡(jiǎn)單的!高一到高三簡(jiǎn)單高效的15個(gè)物理算法模型解題大全
  • 高中物理68個(gè)解題模型 物理很簡(jiǎn)單的!高一到高三簡(jiǎn)單高效的15個(gè)物理算法模型解題大全