你消化了今天的知識(shí)嗎?
美人兒
想快速入門數(shù)據(jù)科學(xué)?做一些數(shù)據(jù)科學(xué)項(xiàng)目往往是一個(gè)很好的敲門磚。做這些項(xiàng)目,不僅可以練習(xí)掌握相關(guān)技能,還可以寫在簡(jiǎn)歷里!要知道,現(xiàn)在HR判斷求職者潛力的方式,已經(jīng)不是看他取得了什么證書,而是看他做了什么項(xiàng)目。如果你沒(méi)有什么東西給他們看,你說(shuō)你會(huì)做很多,他們只會(huì)覺(jué)得你只是說(shuō)說(shuō)而已,不練招數(shù)。
你可能做了很多數(shù)據(jù)相關(guān)的事情,但是如果你做的事情不好向大家展示和解釋,HR怎么知道你也有兩把刷子呢?這就是我們今天介紹的項(xiàng)目可以幫助你的地方。我們保證這些項(xiàng)目的含金量,你保證你在上面花足夠的時(shí)間,那么你一定會(huì)收獲很多。
而且,我們?yōu)槟氵x擇的項(xiàng)目橫跨各個(gè)領(lǐng)域,無(wú)論你喜歡哪個(gè)領(lǐng)域,都能找到你喜歡的話題;每個(gè)合格的數(shù)據(jù)人都應(yīng)該有處理大數(shù)據(jù)集的經(jīng)驗(yàn),所以也有一些大數(shù)據(jù)集供你選擇。最重要的是,零成本,免費(fèi)!
由難到易
為了讓你知道從哪里開始,我們將這些數(shù)據(jù)集按照難度分為三個(gè)級(jí)別:
首先,入門
這一級(jí)別的數(shù)據(jù)集往往處理起來(lái)相對(duì)簡(jiǎn)單,不需要任何復(fù)雜的技術(shù)就可以通過(guò)分類或回歸算法來(lái)解決。而且這個(gè)數(shù)據(jù)集有一個(gè)公共教程教你怎么做,不至于讓你一上來(lái)就全瞎閉門造車。
第二,高級(jí)
與原始數(shù)據(jù)集相比,這一級(jí)別的數(shù)據(jù)集相對(duì)復(fù)雜且較大,需要一定的模式識(shí)別能力。而且一個(gè)優(yōu)秀的特征工程往往會(huì)帶來(lái)更好的分析結(jié)果。你能想到的機(jī)器學(xué)習(xí)方法,從簡(jiǎn)單到復(fù)雜,都可以。
第三,高級(jí)
這種級(jí)別的數(shù)據(jù)集更適合了解神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)或推薦系統(tǒng)等熱點(diǎn)話題的人。這些數(shù)據(jù)集往往有很多特色,是適合你施展才華的地方。
初級(jí)課程
1.虹膜數(shù)據(jù)集
可能沒(méi)有更適合初學(xué)者分類問(wèn)題的數(shù)據(jù)集了,只有150行4列。如果你是小白,就不能錯(cuò)過(guò)這個(gè)數(shù)據(jù)集。
問(wèn)題:預(yù)測(cè)花的種類
數(shù)據(jù):https://archive.ics.uci.edu/ml/datasets/Iris
教程:https://www.slideshare.net/thoi _吉安/iris-數(shù)據(jù)分析-帶-r
6.葡萄酒質(zhì)量數(shù)據(jù)集
這個(gè)數(shù)據(jù)集很受數(shù)據(jù)科學(xué)新粉絲的歡迎。分為兩部分,可以用來(lái)分類,也可以用來(lái)回歸。它可以測(cè)試你處理離群值、模型選擇和不平衡數(shù)據(jù)的能力。它有4898行和12列。
問(wèn)題:葡萄酒質(zhì)量預(yù)測(cè)
數(shù)據(jù):https://archive.ics.uci.edu/ml/datasets/Wine+Quality
教程:https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf
7.圖爾基耶學(xué)生評(píng)估數(shù)據(jù)集
該數(shù)據(jù)集取自學(xué)生對(duì)多門課程的教學(xué)評(píng)價(jià)。它包含了很多特征,如出勤率、難易程度、年級(jí)等,這是一個(gè)無(wú)監(jiān)督學(xué)習(xí)的問(wèn)題。該數(shù)據(jù)集有5820行和33列。
問(wèn)題:使用分類和聚類技術(shù)處理數(shù)據(jù)
數(shù)據(jù):https://archive.ics.uci.edu/ml/datasets/wine+quality
教程:https://sanghosuh.github.io/research/la _埃德蒙·sanghosuh.pdf
7.電影鏡頭數(shù)據(jù)集
要不要自己寫一個(gè)推薦系統(tǒng)?機(jī)會(huì)來(lái)了。這個(gè)數(shù)據(jù)集也是最受歡迎的數(shù)據(jù)集之一,包含6000個(gè)用戶對(duì)4000部電影的100萬(wàn)條評(píng)論。
問(wèn)題:向用戶推薦新電影
數(shù)據(jù):https://grouplens.org/datasets/movielens/1m/
教程:https://www . analyticsvidhya . com/blog/2016/06/quick-guide-build-推薦信-engine-python/
8.推特分類數(shù)據(jù)集
做情感分析,需要分析Twitter數(shù)據(jù)。如果你想要一塊NLP,你一定很樂(lè)意挑戰(zhàn)這個(gè)數(shù)據(jù)集。
問(wèn)題:區(qū)分推特用戶的情感極性
數(shù)據(jù):https://data hack . analyticsvidhya . com/contest/practice-problem-Twitter-句子-分析/
教程:https://github.com/abdulfatir/twitter-sentiment-analysis
較年長(zhǎng)的
1.識(shí)別您的數(shù)字?jǐn)?shù)據(jù)集
這個(gè)數(shù)據(jù)集包含許多帶數(shù)字的圖片。可以通過(guò)它學(xué)習(xí)圖像識(shí)別的技術(shù)和原理。這和人臉識(shí)別的原理一樣!通過(guò)用7000張圖片分析這個(gè)數(shù)據(jù)集,你就掌握了這些技巧。
問(wèn)題:識(shí)別圖片中的數(shù)字
數(shù)據(jù):https://data hack . analyticsvidhya . com/contest/practice-problem-identify-the-digits/
教程:https://www . analyticsvidhya . com/blog/2016/10/an-introduction-to-implementing-neural-networks-use-tensorflow/
2.城市聲音分類
當(dāng)你開始你的機(jī)器學(xué)習(xí)之旅時(shí),你通常會(huì)先處理一些簡(jiǎn)單的數(shù)據(jù)集,比如泰坦尼克號(hào),但你仍然沒(méi)有處理過(guò)現(xiàn)實(shí)生活中的問(wèn)題。然后,這個(gè)數(shù)據(jù)集會(huì)帶你去處理一個(gè)現(xiàn)實(shí)生活中的音頻分類問(wèn)題,這個(gè)問(wèn)題包括10類8732段音頻。
問(wèn)題:區(qū)分音頻的類型
數(shù)據(jù):https://data hack . analyticsvidhya . com/contest/practice-problem-urban-sound-classification/
教程:https://www . analyticsvidhya . com/blog/2017/08/audio-voice-processing-deep-learning/
3.沃克斯名人數(shù)據(jù)集
音頻處理現(xiàn)在是深度學(xué)習(xí)中非常重要的一個(gè)領(lǐng)域,這個(gè)數(shù)據(jù)集正好屬于這個(gè)領(lǐng)域。它是從YouTube上提取的,包含了很多名人演講的音頻。你的任務(wù)是識(shí)別聲音,并告訴每個(gè)片段是誰(shuí)的聲音。這個(gè)數(shù)據(jù)集包含了1251位名人的10萬(wàn)個(gè)演講片段。
問(wèn)題:說(shuō)出每個(gè)片段是誰(shuí)的聲音
數(shù)據(jù):http://www.robots.ox.ac.uk/~vgg/data/voxceleb/
教程:https://www.robots.ox.ac.uk/~ vgg/publications/2017/nagrani 17/nagrani 17 . pdf
4.ImageNet數(shù)據(jù)集
ImageNet提供了很多關(guān)于目標(biāo)檢測(cè)、目標(biāo)定位、目標(biāo)分類的問(wèn)題,所有圖像數(shù)據(jù)都是免費(fèi)的。您可以選擇任何您喜歡的圖像,并根據(jù)它制作您自己的項(xiàng)目。它有高達(dá)140GB的圖像數(shù)據(jù)等著你去翻牌子。
問(wèn)題:區(qū)分圖像類型
數(shù)據(jù):http://image-net.org/download-imageurls
教程:http://image-net.org/download-imageurls
5.芝加哥犯罪數(shù)據(jù)集
在這個(gè)計(jì)算能力豐富的時(shí)代,公司不再喜歡用小樣本來(lái)分析和處理數(shù)據(jù),處理大數(shù)據(jù)集的能力變得越來(lái)越重要。這個(gè)多分類數(shù)據(jù)集不難處理,數(shù)據(jù)管理是關(guān)鍵!
問(wèn)題:預(yù)測(cè)犯罪類型
資料來(lái)源:https://data . city his cago . org/public-safety/crimes-2001-至今/ijzp-q8t2
教程:http://nathanwayneholt . com/Mathematica modeling/Chicago crimes report . pdf。
6.印度演員數(shù)據(jù)集的年齡檢測(cè)
對(duì)于深度學(xué)習(xí)愛(ài)好者來(lái)說(shuō),檢測(cè)人的年齡是一個(gè)非常有趣的挑戰(zhàn)。這個(gè)數(shù)據(jù)集提供了很多印度演員的照片,你的任務(wù)是區(qū)分他們的年齡。每張圖片都是手工挑選的,有各種比例、姿勢(shì)、年齡、妝容、分辨率。訓(xùn)練集有19906個(gè)樣本,測(cè)試集有6636個(gè)樣本。
問(wèn)題:預(yù)測(cè)演員的年齡
數(shù)據(jù):http://image-net.org/download-imageurls
教程:https://www . analyticsvidhya . com/blog/2017/06/hand-with-deep-learning-solution-for-age-detection-practice-problem/
7.推薦引擎數(shù)據(jù)集
這是一個(gè)高階推薦系統(tǒng)問(wèn)題。在這個(gè)問(wèn)題中,它提供了程序員已經(jīng)解決的問(wèn)題,以及他們花在這個(gè)問(wèn)題上的時(shí)間。而你的任務(wù)就是給用戶推薦下一個(gè)問(wèn)題。
問(wèn)題:根據(jù)用戶目前解決編程問(wèn)題的水平,為用戶推薦合適的問(wèn)題。
數(shù)據(jù):https://data hack . analyticsvidhya . com/contest/practice-problem-推薦信-engine/
8.可視化問(wèn)答數(shù)據(jù)集
VisualQA是一個(gè)包含很多開放性問(wèn)題的圖像數(shù)據(jù)集,需要你對(duì)計(jì)算機(jī)視覺(jué)有一定的了解。這個(gè)數(shù)據(jù)集中有265,016張圖片,每張圖片有3個(gè)問(wèn)題。
問(wèn)題:通過(guò)深度學(xué)習(xí)解決形象開放性問(wèn)題。
數(shù)據(jù):https://visualqa.org/
教程:https://arxiv.org/abs/1708.02711
如你所見,資源很多,但你只需要選擇適合自己的,適合自己的就是最好的。如果還是小白,就不要選擇那些難的數(shù)據(jù)集,不要想著一口吃掉一個(gè)胖子,一步一個(gè)腳印就好。當(dāng)然,如果你專攻數(shù)據(jù)分析和商業(yè)分析,最好不要錯(cuò)過(guò)這個(gè)周末的公開課。
當(dāng)你完成了兩三個(gè)項(xiàng)目,記得把它們寫在簡(jiǎn)歷上,LinkedIn或者GitHub上,這一點(diǎn)很重要。許多人力資源招聘人員使用LinkedIn或GitHub來(lái)篩選人員。
當(dāng)然,如果你不知道自己努力的方向,不知道如何做出一個(gè)漂亮的項(xiàng)目,不知道如何展示,那么3月30號(hào)來(lái)我們數(shù)據(jù)應(yīng)用研究所的數(shù)據(jù)科學(xué)家訓(xùn)練營(yíng)吧。
原作者:ANALYTICS VIDHYA CONTENT TEAM
翻譯:唐唐
美術(shù)編輯:郭兒
校對(duì):卡里
原文鏈接:https://www . analyticsvidhya . com/blog/2018/05/24-ultimate-data-science-projects-to-boost-you-knowledge-and-skills/
1.《turkiye 你總說(shuō)沒(méi)有經(jīng)歷沒(méi)人要?這24個(gè)全網(wǎng)公認(rèn)最有價(jià)值的開源數(shù)據(jù)項(xiàng)目你做了么?》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無(wú)關(guān),侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。
2.《turkiye 你總說(shuō)沒(méi)有經(jīng)歷沒(méi)人要?這24個(gè)全網(wǎng)公認(rèn)最有價(jià)值的開源數(shù)據(jù)項(xiàng)目你做了么?》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來(lái)源地址,http://f99ss.com/fangchan/1052064.html