本文轉(zhuǎn)載授權(quán)機(jī)心,禁止轉(zhuǎn)載兩次。
選自kdkings,機(jī)器之心編譯,參加:特倫斯L,李亞洲;
原文鏈接:http://mp.weixin.qq.com/s/-1Ze6jXQP4lAm-oRNWFmEw
引導(dǎo)閱讀
最新的KDKings調(diào)查顯示了數(shù)據(jù)科學(xué)家最常用的算法列表。這個列表包含了很多驚喜,包括最學(xué)術(shù)的算法和面向產(chǎn)業(yè)化的算法。
在過去的12個月中,您將哪些方法/算法應(yīng)用于實(shí)際的數(shù)據(jù)科學(xué)相關(guān)應(yīng)用?
這是基于844名選民的投票結(jié)果
十大算法及其投票者比例如下:
圖1:數(shù)據(jù)科學(xué)家使用的十大算法
在文章的最后,列出了所有的算法
每位受訪者平均使用8.1種算法,與2011年類似調(diào)查的結(jié)果相比,這是一個巨大的增長
與2011年的數(shù)據(jù)分析/數(shù)據(jù)挖掘調(diào)查相比,我們注意到回歸、聚類、決策樹/規(guī)則和可視化仍然是最常用的方法。增幅最大的是確定的以下算法:
從2011年的23.5%到2016年的32.8%,同比增長40%
文本挖掘,從2011年的27.7%到2016年的35.9%,同比增長30%
可視化,從2011年的38.3%上升到2016年的48.7%,同比增長27%
時間序列/序列分析,從2011年的29.6%到2016年的37.0%,同比增長25%
異常/偏差檢測,從2011年的16.4%上升到2016年的19.5%,同比增長19%
綜合方法,從2011年的28.3%到2016年的33.6%,同比增長19%
支持向量機(jī),從2011年的28.6%到2016年的33.6%,同比增長18%
回歸,從2011年的57.9%到2016年的67.1%,同比增長16%
在2016年的調(diào)查中,最受歡迎的算法有了新的列表:
K-最近的鄰居,46%
主成分分析,43%
隨機(jī)森林,38%
優(yōu)化,24%
神經(jīng)網(wǎng)絡(luò)-深度學(xué)習(xí),19%
奇異值分解,16%
降幅最大的是:
關(guān)聯(lián)規(guī)則從2011年的28.6%下降到2016年的15.3%,同比下降47%
隆起形態(tài)從2011年的4.8%下降到2016年的3.1%,同比下降36%
因子分析,從2011年的18.6%到2016年的14.2%,同比下降24%
生存分析,從2011年的9.3%到2016年的7.9%,同比下降15%
下表顯示了不同算法類型的使用:監(jiān)督算法、非監(jiān)督算法、元算法,以及由職業(yè)類型決定的算法的使用。我們排除了北美和其他職業(yè)類型。
職業(yè)類型
投票率%
使用的算法的平均數(shù)量
%監(jiān)控算法使用情況
%無監(jiān)督算法使用
%元使用率
%其他方法使用
一個
工業(yè)
59%
8.4
94%
81%
55%
83%
2
政府/非營利組織
4.10%
9.5
91%
89%
49%
89%
三
學(xué)生
16%
8.1
94%
76%
47%
77%
四
學(xué)術(shù)界
12%
7.2
95%
81%
44%
77%
五
整體
8.3
94%
82%
48%
81%
表1:根據(jù)職業(yè)類型使用不同的算法
我們注意到幾乎每個人都使用監(jiān)督學(xué)習(xí)算法。
政府和工業(yè)數(shù)據(jù)科學(xué)家比學(xué)生和學(xué)術(shù)研究人員使用更多不同類型的算法,而工業(yè)數(shù)據(jù)科學(xué)家更喜歡使用元算法。
接下來我們按照職業(yè)類型分析了算法+深度學(xué)習(xí)的前10種用法。
運(yùn)算法則
工業(yè)
政府/非營利組織
學(xué)術(shù)界
學(xué)生
整體
1回歸71%63%51%64%67%2聚類58%63%51%58%57%3決策59%63%38%57%55%4可視化55%71%28%47%49%5K-近鄰法46%54%48%47%46%6主成分分析43%57%48%40%43%7統(tǒng)計47%49%37%36%43%8隨機(jī)森林40%40%29%36%38%9時間序列42%54%26%24%37%10文本挖掘36%40%33%38%36%11深度學(xué)習(xí)18%9%24%19%19%表2:按職業(yè)類型分類的十大算法+深度學(xué)習(xí)用法
為了更清楚地看到差異,我們計算了特定職業(yè)分類相對于平均算法使用的算法偏差,即偏差 =使用/使用
圖2:職業(yè)對算法的偏好
我們注意到,工業(yè)數(shù)據(jù)科學(xué)家更傾向于使用回歸、可視化、統(tǒng)計、隨機(jī)森林和時間序列。政府/非營利組織更喜歡使用可視化、主成分分析和時間序列。學(xué)術(shù)研究者更喜歡使用主成分分析和深度學(xué)習(xí)。學(xué)生一般用的算法比較少,但大多是文本挖掘和深度學(xué)習(xí)。
接下來,讓我們來看看特定地區(qū)的參與情況,指出kdkings的總體用戶:
美國/加拿大,40%
歐洲,32%
亞洲,18%
拉丁美洲,5%
非洲/中東,3.4%
澳大利亞/新西蘭,2.2%
在2011年的調(diào)查中,我們將行業(yè)/政府分為一組,將學(xué)術(shù)研究/學(xué)生分為第二組,計算算法對行業(yè)/政府的善意度:
N / N
- - 1
N / N
因此,親密度為0的算法意味著它在行業(yè)/政府和學(xué)術(shù)研究人員或?qū)W生之間平等使用。ig親密度越高,算法在工業(yè)界的應(yīng)用越廣泛,越接近“學(xué)術(shù)”。
最“工業(yè)化”的算法是:
異常檢測,1.61
生存分析,1.39
因子分析,0.83
時間序列/系列,0.69
關(guān)聯(lián)規(guī)則,0.5
向上建模是最“工業(yè)算法”。令人驚訝的是,它的利用率極低——只有3.1%——是本次調(diào)查算法中最低的。
最學(xué)術(shù)的算法是:
傳統(tǒng)神經(jīng)網(wǎng)絡(luò),-0.35
樸素貝葉斯,-0.35
支持向量機(jī),-0.24
深度學(xué)習(xí),-0.19
EM,-0.17
下圖顯示了所有的算法和它們的工業(yè)/學(xué)術(shù)親密度。
圖3: KD掘金投票:數(shù)據(jù)科學(xué)家最常用的算法:工業(yè)界VS學(xué)術(shù)界
下表詳細(xì)介紹了算法、兩次調(diào)查中使用的算法比例以及如上所述的行業(yè)友好性。
下圖按列顯示了算法的詳細(xì)信息
n:根據(jù)使用情況排名
算法,命名算法,
類型:S-監(jiān)督,U-監(jiān)督,M-元,Z-其他,
2016年調(diào)查中使用此算法的受訪者比例
在2011年調(diào)查中使用該算法的受訪者比例
變化,
行業(yè)親密度
普通
運(yùn)算法則
類型
2016年使用率%
2011年使用率%
變化程度%
產(chǎn)業(yè)親和力
1回歸S67%58%16%0.212聚類U57%52%8.70%0.053決策樹/RulesS55%60%-7.30%0.214可視化Z49%38%27%0.445K-近鄰法S46%0.326主成分分析U43%0.027統(tǒng)計Z43%48%-11%1.398隨機(jī)森林S38%0.229時間序列/序列分析Z37%30%25%0.6910文本挖掘Z36%28%29.80%0.0111組合方法M34%28%18.90%-0.1712支持向量機(jī)S34%29%17.60%-0.2413BoostingM33%23%40%0.2414常規(guī)神經(jīng)網(wǎng)絡(luò)S24%27%-10.50%-0.3515最優(yōu)化Z24%0.0716樸素貝葉斯S24%22%8.90%-0.0217BaggingM22%20%8.80%0.0218偏差檢測Z20%16%19%1.6119神經(jīng)網(wǎng)絡(luò)-深度學(xué)習(xí)S19%-0.3520奇異值分解U16%0.2921關(guān)聯(lián)規(guī)則Z15%29%-47%0.522圖/連接/社會網(wǎng)絡(luò)分析Z15%14%8%-0.0823因素分析U14%19%-23.80%0.1424貝葉斯網(wǎng)絡(luò)S13%-0.125遺傳算法Z8.80%9.30%-6%0.8326生存分析Z7.90%9.30%-14.90%-0.1527最大期望U6.60%-0.1928其他方法Z4.60%-0.0629Uplift modelingS3.10%4.80%-36.10%2.01表3: KD掘金2016調(diào)查:數(shù)據(jù)科學(xué)家使用的算法
結(jié)束
請發(fā)送電子郵件到holly0801@163.com提交和反饋。微信官方賬號轉(zhuǎn)載大數(shù)據(jù)文章請向原作者申請授權(quán),否則任何版權(quán)糾紛都與大數(shù)據(jù)無關(guān)。
大數(shù)據(jù)
為您提供與大數(shù)據(jù)相關(guān)的最新技術(shù)和信息。
最近的精彩文章:
161224
161222
161216
161213
161208
161206
161205
161129
161126
161122
161119
161114
161112
161108
161107
161105
161028
161025
161023
161016
161014
161009
161001
更多精彩文章,請在公眾號后臺點(diǎn)擊“歷史文章”查看,謝謝。1.《nuggets 數(shù)據(jù)科學(xué)家最常用的十種算法(KDnuggets官方調(diào)查)》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《nuggets 數(shù)據(jù)科學(xué)家最常用的十種算法(KDnuggets官方調(diào)查)》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí),對其原創(chuàng)性、真實(shí)性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/shehui/1684738.html