主成分分析法應(yīng)用廣泛,一直是熱門話題。關(guān)于PCA的文章很多,不考慮它的原理,圖形解釋,繪制方法。它還廣泛應(yīng)用于轉(zhuǎn)錄組、種群進(jìn)化、微生物生態(tài)學(xué),甚至金融和教育。
今天我們簡單介紹一下PCA分析與微生物物種多樣性的關(guān)系。在微生物群落的研究中,正常的PCA圖如圖1所示,一般以二維坐標(biāo)顯示,其中樣本為點,物種為箭頭。
很多常見的PCA圖像因為不顯示所以沒有箭頭,但最原始的PCA圖像其實是有箭頭的。這種圖也叫雙標(biāo)圖,就是一個圖同時顯示物種和樣本。
圖1。典型主成分分析圖
主坐標(biāo)
主成分分析的特點是“主坐標(biāo)”,這在大多數(shù)解釋中都應(yīng)該提到。主要坐標(biāo)是什么?這里有一個簡單的例子,比如表1中物種X樣本的豐度表,包括S1-S6的6個樣本點和A、B、C三個物種,其中S1、S2、S3為一組,另外三個樣本為另一組。
因為在一般的實驗設(shè)計中,樣本是根據(jù)某些性質(zhì)分組的,所以同一組中的物種在理論上會有相似的豐度模式,所以實際上,樣本之間的關(guān)系可以通過一些物種來判斷。從表1中我們可以發(fā)現(xiàn),不同樣品中A和B物種的豐度是不同的,但是C是相同的,所以我們不能用C來區(qū)分樣品,所以只有A和B適合區(qū)分樣品。
但是A和B的歧視程度是有區(qū)別的。a在所有樣本中跨度較大,表現(xiàn)出前三個樣本和后三個樣本分別聚集的趨勢;B在所有樣本中均勻分布,所以A比B更能區(qū)分樣本分組,這里A更能說明樣本的分布規(guī)律,即“第一主坐標(biāo)”,B是“第二主坐標(biāo)”,C是“第三主坐標(biāo)”,因為區(qū)分度最差。
表1物種多度表
S1
S2
S3
第四心音
表面抗原-5
S6
A
100
90
80
40
30
20
B
45
四十二歲
39
36
33
30
C
80
80
80
80
80
80
群集
PCA的作用其實是通過物種多度模型找到樣本的距離關(guān)系,使同一分組的點在圖中更加接近。怎么做?我們再舉一個簡單的例子。我們使用omicshare工具繪制了上標(biāo)數(shù)據(jù)的三維散點圖,結(jié)果如圖2所示。為了便于解釋,我順便標(biāo)注了三個物種軸A、B、C和所有樣本點。
從圖中可以簡單看出,物種豐富度模式相似的點(如S1、S2、S3)在圖中靠得更近,形成“聚集”效應(yīng)。那么,最極端的是,如果S1,S2,S3都是A: 100,B: 45,C: 80,那么這三點就完全重合了!
圖2。三維效果圖
降維
降維是PCA中最常提到的詞。社區(qū)里檢測到了成千上萬的微生物。前面說過,一個物種是一維的,那么1000個物種就是1000維空。我們正常人是無法識別和理解空這樣的高維的,所以需要把空這樣的高維簡化成三維甚至二維,這樣大家才能明白降維就是這樣。
要理解和實現(xiàn)降維,需要依靠前面的“主坐標(biāo)”概念。我將圖2的三維圖形投影在坐標(biāo)a、b和c上,這是圖3的效果。圖3的本質(zhì)是三維化簡為一維,是一個相對簡單的降維例子。降維后,我們可以將A、B、C三個投影與圖2中的原始三維圖形進(jìn)行對比,發(fā)現(xiàn)A軸上的點聚類模式最能還原原始三維圖形,C軸上的投影還原效果最差(簡直是誤解!)。
原來降維可能失真了!怎么辦?結(jié)合主坐標(biāo)的重要性,我們可以發(fā)現(xiàn)從數(shù)據(jù)表上看A軸的數(shù)據(jù)最有代表性,從降維圖上看A軸的效果也最好。所以我們在降維的時候一定要保證選定的軸是最有代表性的,那么圖形失真的比例自然會降低。
圖3。降維效果圖
坐標(biāo)變換
這部分應(yīng)該是最難理解和解釋的,不打算在這里花太多篇幅。上面說的降維,盡量找最有代表性的物種來顯示圖形作為坐標(biāo)軸,以減少失真效果。但實際上,由于數(shù)據(jù)的復(fù)雜性,很難有一個可以直接作為坐標(biāo)的“已知物種”。這時,我們必須“創(chuàng)造”一個虛假的物種。
在表1的A、B、C三個物種中,A物種很有代表性。但實際數(shù)據(jù)往往如表2所示,A、B、C作為代表物種不是很合適。非得降維,怎么辦?當(dāng)物種足夠多的時候,空之間的維數(shù)會很高。通過空(這個我們無法理解)之間不斷的投影和變換,總會找到一個新的物種坐標(biāo)A ',B '。
算法上,A '和B '是通過分解其他物種合成的。不存在,但在映射中最有代表性。這類似于圖4中的投影。我們不斷的移動燈泡位置,總能找到白紙上一個點最合理的投影。這時候白紙的坐標(biāo)就是我們說的新合成的坐標(biāo)。
表2 .物種多度表
S1
S2
S3
第四心音
表面抗原-5
S6
A
100
56
60
43
20
0
B
20
22
64
54
40
12
C
80
35
55
97
九
43
圖4。燈泡投影效應(yīng)
實際應(yīng)用
不可忽視的一點是,PCA在社區(qū)研究中的應(yīng)用越來越少,這主要與其線性模型有關(guān)。它會默認(rèn)所有物種都沿著環(huán)境梯度線性變化,但實際上是不可能的(如果你對線性解釋感興趣,可以自行搜索)。要解決這個問題,需要CA,PCoA等方法。
另外,由于PCA的線性特征,會過分強調(diào)優(yōu)勢種在群落中的作用。在稀有物種較多的樣品(如環(huán)境土壤樣品)中,PCA的分析效果可能很差,值得注意。
1.《pca 你是否真的了解PCA?》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《pca 你是否真的了解PCA?》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/junshi/1586693.html