簡介:在大多數(shù)情況下,數(shù)據(jù)分析的過程必然包含數(shù)據(jù)探索的過程。數(shù)據(jù)探索可以從兩個層面理解:
第一,只使用一些工具來查看數(shù)據(jù)的特征;第二,根據(jù)數(shù)據(jù)的特點,我們感知數(shù)據(jù)的價值來決定是否需要探索其他領(lǐng)域,或者如何處理這些領(lǐng)域,以充分發(fā)揮數(shù)據(jù)分析的價值。領(lǐng)域的選擇不僅需要技術(shù)手段的支持,還需要數(shù)據(jù)分析師的經(jīng)驗和對問題解決的深刻理解。
01數(shù)字類型
分析數(shù)據(jù)時,往往需要明確每個字段的數(shù)據(jù)類型。數(shù)據(jù)類型代表數(shù)據(jù)的業(yè)務(wù)意義,分為三種類型:
1.區(qū)間數(shù)據(jù)(區(qū)間)
數(shù)值數(shù)據(jù)的值都是數(shù)值類型,大小代表對象的狀態(tài)。比如年收入的價值代表其收入狀況。
2.分類數(shù)據(jù)
分類數(shù)據(jù)的每個值代表一個類別,如性別,兩個值代表兩個組。
3.序數(shù)數(shù)據(jù)(序數(shù))
它與分類數(shù)據(jù)非常相似,每個值代表不同的類別。但是,序數(shù)數(shù)據(jù)還有另一層含義,就是每個值都有自己的大小。比如年收入分為高、中、低三個檔次,不同的數(shù)值可以分為類別和大小。
如果不理解字段的實際業(yè)務(wù)含義,數(shù)據(jù)分析師可能會在判斷數(shù)據(jù)類型時出錯。例如,字段的值是“1”、“2”和“3”,這并不意味著它是數(shù)字類型。它的商業(yè)意義也可以是一個不同類型的領(lǐng)域?!?”、“2”、“3”分別代表一個范疇,其大小沒有任何意義。因此,充分理解字段的含義是非常重要的。
許多數(shù)據(jù)分析工具會根據(jù)數(shù)據(jù)中字段的實際值自動判斷類型:例如,字符數(shù)據(jù)一般被認為是分類數(shù)據(jù);如果一個字段的所有值只有“1”、“2”和“3”,則判斷為分類變量,然后用戶再次判斷后,很可能是序數(shù)變量。
當算法訓練模型時,以不同的方式處理不同的數(shù)據(jù)類型。區(qū)間數(shù)據(jù)直接計算;鍵入的數(shù)據(jù)首先轉(zhuǎn)換成稀疏矩陣:每個類別都是一個新字段,然后根據(jù)其值“1”和“0”進行計算。
在很多場景下,人們習慣于將分類數(shù)據(jù)和序數(shù)數(shù)據(jù)稱為分類數(shù)據(jù),即有兩種數(shù)據(jù)類型:數(shù)值數(shù)據(jù)(區(qū)間數(shù)據(jù))和分類數(shù)據(jù)(分類數(shù)據(jù)和序數(shù)數(shù)據(jù))。
02連續(xù)數(shù)據(jù)的探索
對連續(xù)數(shù)據(jù)的探索側(cè)重于通過統(tǒng)計指標反映其分布和特征。典型的統(tǒng)計指標如下:
4.缺少值
空的值是缺少的值。缺失值比率是確定該字段是否可用的重要指標。通常,如果缺失率超過50%,則該字段完全不可用。
在很多情況下,我們需要區(qū)別對待null和0之間的關(guān)系。Null是缺失值,0是有效值。這個區(qū)分很重要,要慎重對待。例如,客戶在銀行的賬戶余額為空,這意味著客戶可能沒有該賬戶。但是,如果將null更改為0,則表示用戶擁有該帳戶,并且?guī)粲囝~為零。
5.均值
顧名思義,中庸就是中庸。它的大小反映了整體水平。平均分95的班肯定比平均分80的班好。
6.最大值和最小值
最大值和最小值是每個數(shù)據(jù)集中的最大值和最小值。
7.不同
方差反映了每個值與平均值的分散度。雖然兩組數(shù)據(jù)的平均值有時可能相同,但每個觀測量的離散程度很少相同。方差越大,離差越大。比如一個平均成績80分的班,方差很小,說明這個班的數(shù)學能力比較一般:高分不多,低分不多。
8.均方差
標準差是方差的處方,其意義與方差相似。
9.中值
中值是將排序后的數(shù)據(jù)集分為兩個數(shù)據(jù)集,即高值數(shù)據(jù)集和低值數(shù)據(jù)集。比如數(shù)據(jù)集{3,4,5,7,8}的中位數(shù)為5,低值和高值分別低于和高于5的數(shù)據(jù)集。數(shù)據(jù)集{2,4,5,7}的中位數(shù)應為(4+5)/2=4.5。
10.模式(模式)
模式是數(shù)據(jù)集中出現(xiàn)頻率最高的數(shù)據(jù)。模式最常用的場景是分類數(shù)據(jù)的統(tǒng)計,但也反映了數(shù)值數(shù)據(jù)的“趨勢點明顯集中值”。
假設(shè)有一組數(shù)據(jù),均值、中位數(shù)和眾數(shù)的計算方法不同:
1,2,2,3,4,7,9
均值:(1 + 2 + 2 + 3 + 4 + 7 + 9)/7=4中位數(shù):3眾數(shù):211.四分位數(shù)
四分位數(shù),即排序后的數(shù)據(jù)用三個序號等分為四個部分,如表2-2所示。
▲表2-2季度示例
第二個四分位數(shù)(Q2)的值與中位數(shù)的值相同。
12.四分位范圍(IQR)
四分位數(shù)距離由第三個四分位數(shù)和第一個四分位數(shù)之間的差值計算得出,即IQR=Q3-Q1。根據(jù)上表,IQR=61-34=27。
四分位數(shù)距離是異常值判別的重要統(tǒng)計指標。一般極值都在Q1-1.5×IQR以下,或者Q3+1.5×IQR以上。著名的方框圖是用四分位數(shù)和四分位數(shù)距離的概念畫出來的,如圖2-1所示。
▲圖2-1方框圖和IQR
方框圖中的上下水平線可能是異常分界點(Q3+1.5×IQR或Q1-1.5×IQR),也可能是最大值或最小值。這完全取決于最大值和最小值是否在截止點內(nèi)。
13.歪斜
偏斜度是表示數(shù)據(jù)分布對稱性的指標。如果其值為0,則表示對稱分布;如果其值為正值,則表示分布的峰值被留下;如果其值為負,說明分布的峰值在右側(cè)。圖2-2給出了偏斜度的一個例子。
▲圖2-2偏斜度的含義
如果偏斜度絕對值(無論是正的還是負的)大于1,就是明顯的信號,你的數(shù)據(jù)分布有明顯的不對稱性。很多數(shù)據(jù)分析算法都是基于類似正態(tài)分布的貝爾分布,數(shù)據(jù)是圍繞均值分布的。如果偏度絕對值太大,那就是另一個信號:你要小心使用那些算法!
在不同的偏度下,均值、中值和眾數(shù)的值差別很大:
▲圖2-3不同分布下模式、均值和中位數(shù)的比較
從圖2-3可以看出,在數(shù)據(jù)范圍相同的情況下,中位數(shù)是相同的。然而,意義和模式是完全不同的。因此,除了偏度指數(shù)可以直接反映分布特征外,分布的偏度也可以通過中值和均值的差異來判斷。
中位數(shù)<均值:偏左分布中位數(shù)、均值相差無幾:對稱分布中位數(shù)>均值:偏右分布14.峰值狀態(tài)(峰度)
標準正態(tài)分布的峰值為3,但在很多數(shù)據(jù)分析工具中,峰值被減去3,這樣:0代表正態(tài)分布;正值表示數(shù)據(jù)分布有一個尖銳的峰值,高于正態(tài)分布的峰值;負值表示數(shù)據(jù)有平緩的峰值,低于正態(tài)分布的峰值。
峰值指數(shù)的主要作用是反映數(shù)值分布的尾厚,峰值對應的是一個粗尾,即峰度大于0時,表示尾厚。峰粗尾粗,即數(shù)值集中在峰附近,而分散在非峰附近。圖2-4顯示了一個峰值狀態(tài)的例子。
▲圖2-4峰值狀態(tài)示例
在連續(xù)數(shù)據(jù)的探索中,應注意缺失率、均值、中值等指標,這可以幫助數(shù)據(jù)分析師更好地理解數(shù)據(jù)的特征。偏斜度是另一個很重要的指標,但當其絕對值接近或大于1時,必須進行對數(shù)轉(zhuǎn)換才能使用,否則這個指標的值會大大降低。
默認情況下,Python熊貓中DataFrame的描述方法只統(tǒng)計連續(xù)性字段的最大值、最小值、平均值、標準差和四分位數(shù)。如果想得到其他特征值,需要調(diào)用相應的函數(shù)才能得到。下面是一個樣例代碼,其運行結(jié)果如表2-4所示。
list _ of _ series =[bank . var . rename(' variance '),
bank . middle . rename(' middle '),
Bank.skew.rename ('skewness '),
Bank.kurt.rename('峰值狀態(tài)')]
df = pd。數(shù)據(jù)幀(系列列表)
Mode = bank。模式(numeric _ only = true)。重命名({0:' mode'})
pd.concat([df,mode])
▲表2-4連續(xù)變量數(shù)據(jù)勘探樣本代碼運行結(jié)果
03類數(shù)據(jù)的探索
對分類數(shù)據(jù)的探索主要是從分類的分布出發(fā)。常見的統(tǒng)計指標如下:
15.缺少值
缺失值始終是需要關(guān)注的指標,無論是連續(xù)數(shù)據(jù)還是分類數(shù)據(jù)。缺失值太多會使指標失去意義。
16.分類數(shù)
根據(jù)分類數(shù)據(jù)中的類別數(shù)量,我們可以大致判斷指標是否可用。例如,從業(yè)務(wù)角度來看,一個指標應該有6個類別,但實際樣本中只出現(xiàn)了5個類別,因此樣本的質(zhì)量需要重新考慮。再比如,當某類變量只有一個類別時,數(shù)據(jù)分析完全不可用。
17.類別中的人數(shù)
大多數(shù)情況下,如果某些類別的個體數(shù)量太少,比如只有1%,可以認為是離群值。分類變量異常值的研究很多,但在業(yè)務(wù)之外談?wù)摲诸愖兞慨惓V凳遣缓线m的。
數(shù)據(jù)不平衡是一個典型的與業(yè)務(wù)相關(guān)的例子。比如從業(yè)務(wù)角度,買黃金的客戶只占銀行客戶總數(shù)的一小部分。如果采用簡單的隨機抽樣方法,“買或不買”列的值將只有幾個“是”值。
但是,“是”不能直接判斷為離群值,而“是”具有極其重要的商業(yè)意義。因此,數(shù)據(jù)分析師需要靈活理解和對待類別中的個人數(shù)量。
18.模式
和連續(xù)數(shù)據(jù)一樣,mode是數(shù)據(jù)集中出現(xiàn)頻率最高的數(shù)據(jù)。例如,如果C在某個子類型的A、B、C、D中出現(xiàn)頻率最高,那么C就是模式。
下面是分類變量數(shù)據(jù)探索的樣例代碼,其運行結(jié)果如表2-5所示。
bank . description(include =[NP . object])
▲表2-5不同類型變量數(shù)據(jù)探索樣本代碼運行結(jié)果
利用Python熊貓的相關(guān)函數(shù),非常容易得到分類變量的探索結(jié)果。表2-5顯示了數(shù)據(jù)探索示例代碼的運行結(jié)果。
關(guān)于作者:彭,德勤企業(yè)咨詢總監(jiān)兼首席數(shù)據(jù)科學家,德勤全球AI團隊核心成員,德勤數(shù)字化轉(zhuǎn)型、智能營銷、智能風險控制、客戶體驗等核心咨詢服務(wù)高級顧問。
張宗耀,上海全英科技有限公司高級數(shù)據(jù)科學家,華為企業(yè)智能部原高級數(shù)據(jù)科學家,IBM SPSS算法組件團隊原高級算法工程師。
聶磊,陜西萬和數(shù)字科技有限公司CTO,IBM SPSS前高級數(shù)據(jù)科學家,IBM Watson Analytics數(shù)據(jù)分析引擎前技術(shù)總監(jiān)、架構(gòu)師。
本文摘自由出版商授權(quán)的《增強分析:人工智能驅(qū)動的數(shù)據(jù)分析、商業(yè)決策和案例實踐》。
增強型分析的擴展閱讀
點擊上圖學習購買
轉(zhuǎn)載請聯(lián)系微信:DoctorData
推薦:增強分析是數(shù)據(jù)科學的未來。本書闡述了如何通過尖端的大數(shù)據(jù)技術(shù)和AI技術(shù),即增強分析,實現(xiàn)智能數(shù)據(jù)分析和業(yè)務(wù)決策。這本書的三位作者分別是德勤、前華為、前IBM的資深數(shù)據(jù)科學家,他們都有至少10年的大數(shù)據(jù)和AI領(lǐng)域的工作經(jīng)驗。他們都在這本書里總結(jié)了自己多年來在構(gòu)建數(shù)據(jù)挖掘模型和解決實際業(yè)務(wù)問題上積累的經(jīng)驗。
長按二維碼或點擊閱讀原文
多找?guī)妆竞脮?/p>
問:你最熟悉哪些概念?
轉(zhuǎn)載/提交請聯(lián)系:baiyu@hzbook.com
單擊閱讀原文了解更多信息
1.《ordinal 值得收藏!數(shù)據(jù)分析最常用的18個概念,終于有人講明白了》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《ordinal 值得收藏!數(shù)據(jù)分析最常用的18個概念,終于有人講明白了》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/jiaoyu/1085796.html