本文轉(zhuǎn)載授權(quán)機(jī)心,禁止轉(zhuǎn)載兩次。

選自kdkings,機(jī)器之心編譯,參加:特倫斯L,李亞洲;

原文鏈接:http://mp.weixin.qq.com/s/-1Ze6jXQP4lAm-oRNWFmEw

引導(dǎo)閱讀

最新的KDKings調(diào)查顯示了數(shù)據(jù)科學(xué)家最常用的算法列表。這個列表包含了很多驚喜,包括最學(xué)術(shù)的算法和面向產(chǎn)業(yè)化的算法。

在過去的12個月中,您將哪些方法/算法應(yīng)用于實(shí)際的數(shù)據(jù)科學(xué)相關(guān)應(yīng)用?

這是基于844名選民的投票結(jié)果

十大算法及其投票者比例如下:

圖1:數(shù)據(jù)科學(xué)家使用的十大算法

在文章的最后,列出了所有的算法

每位受訪者平均使用8.1種算法,與2011年類似調(diào)查的結(jié)果相比,這是一個巨大的增長

與2011年的數(shù)據(jù)分析/數(shù)據(jù)挖掘調(diào)查相比,我們注意到回歸、聚類、決策樹/規(guī)則和可視化仍然是最常用的方法。增幅最大的是確定的以下算法:

從2011年的23.5%到2016年的32.8%,同比增長40%

文本挖掘,從2011年的27.7%到2016年的35.9%,同比增長30%

可視化,從2011年的38.3%上升到2016年的48.7%,同比增長27%

時間序列/序列分析,從2011年的29.6%到2016年的37.0%,同比增長25%

異常/偏差檢測,從2011年的16.4%上升到2016年的19.5%,同比增長19%

綜合方法,從2011年的28.3%到2016年的33.6%,同比增長19%

支持向量機(jī),從2011年的28.6%到2016年的33.6%,同比增長18%

回歸,從2011年的57.9%到2016年的67.1%,同比增長16%

在2016年的調(diào)查中,最受歡迎的算法有了新的列表:

K-最近的鄰居,46%

主成分分析,43%

隨機(jī)森林,38%

優(yōu)化,24%

神經(jīng)網(wǎng)絡(luò)-深度學(xué)習(xí),19%

奇異值分解,16%

降幅最大的是:

關(guān)聯(lián)規(guī)則從2011年的28.6%下降到2016年的15.3%,同比下降47%

隆起形態(tài)從2011年的4.8%下降到2016年的3.1%,同比下降36%

因子分析,從2011年的18.6%到2016年的14.2%,同比下降24%

生存分析,從2011年的9.3%到2016年的7.9%,同比下降15%

下表顯示了不同算法類型的使用:監(jiān)督算法、非監(jiān)督算法、元算法,以及由職業(yè)類型決定的算法的使用。我們排除了北美和其他職業(yè)類型。

職業(yè)類型

投票率%

使用的算法的平均數(shù)量

%監(jiān)控算法使用情況

%無監(jiān)督算法使用

%元使用率

%其他方法使用

一個

工業(yè)

59%

8.4

94%

81%

55%

83%

2

政府/非營利組織

4.10%

9.5

91%

89%

49%

89%

學(xué)生

16%

8.1

94%

76%

47%

77%

學(xué)術(shù)界

12%

7.2

95%

81%

44%

77%

整體

8.3

94%

82%

48%

81%

表1:根據(jù)職業(yè)類型使用不同的算法

我們注意到幾乎每個人都使用監(jiān)督學(xué)習(xí)算法。

政府和工業(yè)數(shù)據(jù)科學(xué)家比學(xué)生和學(xué)術(shù)研究人員使用更多不同類型的算法,而工業(yè)數(shù)據(jù)科學(xué)家更喜歡使用元算法。

接下來我們按照職業(yè)類型分析了算法+深度學(xué)習(xí)的前10種用法。

運(yùn)算法則

工業(yè)

政府/非營利組織

學(xué)術(shù)界

學(xué)生

整體

1回歸71%63%51%64%67%2聚類58%63%51%58%57%3決策59%63%38%57%55%4可視化55%71%28%47%49%5K-近鄰法46%54%48%47%46%6主成分分析43%57%48%40%43%7統(tǒng)計47%49%37%36%43%8隨機(jī)森林40%40%29%36%38%9時間序列42%54%26%24%37%10文本挖掘36%40%33%38%36%11深度學(xué)習(xí)18%9%24%19%19%

表2:按職業(yè)類型分類的十大算法+深度學(xué)習(xí)用法

為了更清楚地看到差異,我們計算了特定職業(yè)分類相對于平均算法使用的算法偏差,即偏差 =使用/使用

圖2:職業(yè)對算法的偏好

我們注意到,工業(yè)數(shù)據(jù)科學(xué)家更傾向于使用回歸、可視化、統(tǒng)計、隨機(jī)森林和時間序列。政府/非營利組織更喜歡使用可視化、主成分分析和時間序列。學(xué)術(shù)研究者更喜歡使用主成分分析和深度學(xué)習(xí)。學(xué)生一般用的算法比較少,但大多是文本挖掘和深度學(xué)習(xí)。

接下來,讓我們來看看特定地區(qū)的參與情況,指出kdkings的總體用戶:

美國/加拿大,40%

歐洲,32%

亞洲,18%

拉丁美洲,5%

非洲/中東,3.4%

澳大利亞/新西蘭,2.2%

在2011年的調(diào)查中,我們將行業(yè)/政府分為一組,將學(xué)術(shù)研究/學(xué)生分為第二組,計算算法對行業(yè)/政府的善意度:

N / N

- - 1

N / N

因此,親密度為0的算法意味著它在行業(yè)/政府和學(xué)術(shù)研究人員或?qū)W生之間平等使用。ig親密度越高,算法在工業(yè)界的應(yīng)用越廣泛,越接近“學(xué)術(shù)”。

最“工業(yè)化”的算法是:

異常檢測,1.61

生存分析,1.39

因子分析,0.83

時間序列/系列,0.69

關(guān)聯(lián)規(guī)則,0.5

向上建模是最“工業(yè)算法”。令人驚訝的是,它的利用率極低——只有3.1%——是本次調(diào)查算法中最低的。

最學(xué)術(shù)的算法是:

傳統(tǒng)神經(jīng)網(wǎng)絡(luò),-0.35

樸素貝葉斯,-0.35

支持向量機(jī),-0.24

深度學(xué)習(xí),-0.19

EM,-0.17

下圖顯示了所有的算法和它們的工業(yè)/學(xué)術(shù)親密度。

圖3: KD掘金投票:數(shù)據(jù)科學(xué)家最常用的算法:工業(yè)界VS學(xué)術(shù)界

下表詳細(xì)介紹了算法、兩次調(diào)查中使用的算法比例以及如上所述的行業(yè)友好性。

下圖按列顯示了算法的詳細(xì)信息

n:根據(jù)使用情況排名

算法,命名算法,

類型:S-監(jiān)督,U-監(jiān)督,M-元,Z-其他,

2016年調(diào)查中使用此算法的受訪者比例

在2011年調(diào)查中使用該算法的受訪者比例

變化,

行業(yè)親密度

普通

運(yùn)算法則

類型

2016年使用率%

2011年使用率%

變化程度%

產(chǎn)業(yè)親和力

1回歸S67%58%16%0.212聚類U57%52%8.70%0.053決策樹/RulesS55%60%-7.30%0.214可視化Z49%38%27%0.445K-近鄰法S46%0.326主成分分析U43%0.027統(tǒng)計Z43%48%-11%1.398隨機(jī)森林S38%0.229時間序列/序列分析Z37%30%25%0.6910文本挖掘Z36%28%29.80%0.0111組合方法M34%28%18.90%-0.1712支持向量機(jī)S34%29%17.60%-0.2413BoostingM33%23%40%0.2414常規(guī)神經(jīng)網(wǎng)絡(luò)S24%27%-10.50%-0.3515最優(yōu)化Z24%0.0716樸素貝葉斯S24%22%8.90%-0.0217BaggingM22%20%8.80%0.0218偏差檢測Z20%16%19%1.6119神經(jīng)網(wǎng)絡(luò)-深度學(xué)習(xí)S19%-0.3520奇異值分解U16%0.2921關(guān)聯(lián)規(guī)則Z15%29%-47%0.522圖/連接/社會網(wǎng)絡(luò)分析Z15%14%8%-0.0823因素分析U14%19%-23.80%0.1424貝葉斯網(wǎng)絡(luò)S13%-0.125遺傳算法Z8.80%9.30%-6%0.8326生存分析Z7.90%9.30%-14.90%-0.1527最大期望U6.60%-0.1928其他方法Z4.60%-0.0629Uplift modelingS3.10%4.80%-36.10%2.01

表3: KD掘金2016調(diào)查:數(shù)據(jù)科學(xué)家使用的算法

結(jié)束

請發(fā)送電子郵件到holly0801@163.com提交和反饋。微信官方賬號轉(zhuǎn)載大數(shù)據(jù)文章請向原作者申請授權(quán),否則任何版權(quán)糾紛都與大數(shù)據(jù)無關(guān)。

大數(shù)據(jù)

為您提供與大數(shù)據(jù)相關(guān)的最新技術(shù)和信息。

最近的精彩文章:

161224

161222

161216

161213

161208

161206

161205

161129

161126

161122

161119

161114

161112

161108

161107

161105

161028

161025

161023

161016

161014

161009

161001

更多精彩文章,請在公眾號后臺點(diǎn)擊“歷史文章”查看,謝謝。

1.《nuggets 數(shù)據(jù)科學(xué)家最常用的十種算法(KDnuggets官方調(diào)查)》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《nuggets 數(shù)據(jù)科學(xué)家最常用的十種算法(KDnuggets官方調(diào)查)》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí),對其原創(chuàng)性、真實(shí)性、完整性、及時性不作任何保證。

3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/shehui/1684738.html