數(shù)據(jù)科學從業(yè)者的研究日記。數(shù)據(jù)挖掘與機器學習,R與Python,理論與實踐并行。個人微信官方賬號:數(shù)據(jù)科學家發(fā)展(微信ID: louwill 12)
昨天備受期待的2017年NBA總決賽G1,我相信你們JRs都看過吧?不是騎士不盡力,而是對面有高達。于是,書包杜和時鐘圖書館的雙星閃亮登場。就在前兩天數(shù)學模型課上教了多元統(tǒng)計,所以復習了一些PCA和典型相關分析的知識。今天,邊肖用R語言進行簡單的典型相關分析,看看這些球員的身體數(shù)據(jù)和技術(shù)統(tǒng)計之間有什么相關性。
一個
典型相關分析的統(tǒng)計原理
簡單來說,典型相關分析就是通過降維來研究兩組變量之間的相關性。一般為了研究兩組變量x = (x1,x2,...XP),y = (y1,y2,...,yq),最原始的方法是計算兩組變量之間的所有相關系數(shù)。pq相關系數(shù)總共有個,主要矛盾很難把握,計算起來很麻煩。這時借助主成分分析,可以找到兩組變量的線性組合,討論線性組合之間的相關性,從而將問題簡化了很多。在實際問題中,這種方法也得到廣泛應用。比如我們需要研究Q個質(zhì)量指標(y1,y2,...,yq)和P原料指標X=(x1,x2,...xp)
典型相關分析的核心思想如下:
首先找出每組變量中的第一對線性組合,使其具有最大相關性,然后找出每組變量中的第二對線性組合,使其與該組中的第一對線性組合無關,而第二對具有第二大相關性,以此類推,直到提取出兩組變量之間的相關性。
至于典型相關分析的數(shù)學推導,這里就不貼了。簡而言之,求導最終要轉(zhuǎn)化為優(yōu)化問題。最近發(fā)現(xiàn)所有問題都需要優(yōu)化。
2
NBA球員典型相關分析
至于典型相關分析的工具實現(xiàn),大家可以用SPSS來做。SPSS中沒有典型相關分析的菜單選項,所以需要在語句窗口中調(diào)用Canonical corralation.sps宏函數(shù)。有點麻煩,今天只用R語言的一個代碼就可以實現(xiàn)SPSS的繁瑣操作。邊肖利用Rvest從NBA中文網(wǎng)上簡單抓取了部分NBA球員的體能數(shù)據(jù)和技術(shù)統(tǒng)計,篩選后提取了NBA聯(lián)盟10位熱門巨星的數(shù)據(jù)。這些數(shù)據(jù)包括球員姓名、身高、體重、翼展、得分、助攻、籃板、搶斷、投籃命中率和2015-16年以來的球隊勝率。邊肖將這些變量分為兩組:體能變量組和技術(shù)統(tǒng)計變量組。R語言中的Cancor函數(shù)可以實現(xiàn)典型相關分析??纯碿ancor函數(shù)使用代碼:
cancor(x,y,xcenter =真,ycenter =真)
x和y是兩個不同的變量數(shù)據(jù)矩陣,xcenter和ycenter取邏輯值,表示樣本是否分散。用cancor函數(shù),我們簡單看一下NBA球員的體能數(shù)據(jù)和技術(shù)統(tǒng)計的相關性。
NBA球員<。-read . CSV(" D:/Rdata/dataset/NBA player . CSV ")
nba<。-比例(NBA球員[,2:10])
ca<。-cancor(nba[,1:3],nba[,4:9])
約
原始數(shù)據(jù)被讀入并按比例標準化,然后數(shù)據(jù)被分成兩組變量并放入cancor函數(shù)。ca的結(jié)果如下:
$cor
[1] 0.9916247 0.8867111 0.8023318
$xcoef
[,1] [,2] [,3]
高度-0.7366761 -0.1910185 -0.6036883
重量0.5825631 0.3859985 -0.2647233
arm let 0.3238704-0.4418187 0.6941731
$ycoef
[,1] [,2] [,3]
分數(shù)0.01132183 -0.1950769 0.40835815
反彈0.01085479 -0.6941907 0.12475701
助攻數(shù)0.16098246 0.1524297-0.2915589005
搶斷-0.10015342 0.4211629-0.24876921
FG 0.27541733 0.3482109-0.5697961
wing Ames-0.31661763-0.4412749 0.0666842446
$xcenter
身高體重臂章
6.772360 e-16-6.397660 e-16 1.765255 e-15
$ycenter
得分籃板助攻
2.624637 e-16 4.510281 e-18-1.694391 e-16
根據(jù)計算結(jié)果,cancor函數(shù)為兩組變量提取三組相關系數(shù),其線性組合如下:
微信回復關鍵詞學習
回復R R語言快速入門免費視頻
回復統(tǒng)計的統(tǒng)計方法及其在R
民生銀行客戶畫像用戶畫像建設及應用回復
回復大數(shù)據(jù)大數(shù)據(jù)系列免費視頻教程
用R語言可視化數(shù)據(jù)的回復可視化
回復數(shù)據(jù)挖掘的數(shù)據(jù)挖掘算法原理解釋及應用
回歸機器學習r & Python機器學習導論
1.《典型相關分析 R語言典型相關分析:NBA球員身體素質(zhì)與統(tǒng)計數(shù)據(jù)關聯(lián)性》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡信息知識,僅代表作者本人觀點,與本網(wǎng)站無關,侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《典型相關分析 R語言典型相關分析:NBA球員身體素質(zhì)與統(tǒng)計數(shù)據(jù)關聯(lián)性》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/shehui/1248386.html