聊起診斷試驗(yàn)?zāi)强墒菓?yīng)用相當(dāng)廣泛:評(píng)價(jià)兩種方法或儀器診斷結(jié)果是否一致,得用到診斷試驗(yàn);看看兩個(gè)大夫?qū)ν蝗翰∪嗽\斷是否一致,要用診斷試驗(yàn);評(píng)價(jià)同一組患者前后兩次診斷結(jié)果的一致性,還得用到診斷試驗(yàn),等等......
簡而言之,診斷試驗(yàn)關(guān)注的重點(diǎn)是“一致性”,也就是說同一個(gè)體用兩種儀器(方法/評(píng)價(jià)者)或前后兩次時(shí)間進(jìn)行觀測(cè),其結(jié)果在誤差允許范圍內(nèi)是一致的。評(píng)價(jià)一致性程度的方法很多,比如說Kappa值、Kendall一致性系數(shù)、組內(nèi)相關(guān)系數(shù)(ICC)等等,但是選對(duì)合適的方法卻不容易,接下來就幫大家梳理一番!
配對(duì)χ2檢驗(yàn) vs. 一致性檢驗(yàn)
配對(duì)χ2檢驗(yàn)(McNemar檢驗(yàn))和Kappa一致性檢驗(yàn)都可以用于配對(duì)設(shè)計(jì)的列聯(lián)表分析(表1),例如,比較超聲和CT平掃對(duì)于急性闌尾炎的診斷價(jià)值,但是兩者卻各有側(cè)重。
(1) 兩者計(jì)算方法不同
由①②③可知在計(jì)算Kappa過程中,會(huì)利用到四格表中全部的數(shù)據(jù)(a、b、c、d),而公式④表明配對(duì)χ2檢驗(yàn)只利用了四格表中“不一致”的數(shù)據(jù)(b和c)。
(2) 兩者提供的信息不同
一致性檢驗(yàn)不僅可以明確兩種方法是否存在一致,更重要的是可以計(jì)算Kappa值,進(jìn)而評(píng)價(jià)一致性的程度。目前認(rèn)為,Kappa<0,一致性強(qiáng)度極差(實(shí)際情況下發(fā)生可能性較低);0-0.20,微弱;0.21-0.40,弱;0.41-0.60,中度;0.61-0.80,高度;0.81-1.00,極強(qiáng)。
配對(duì)χ2檢驗(yàn)只能給出兩種方法陽性(或陰性)檢出率的差異是否具有統(tǒng)計(jì)學(xué)意義,但配對(duì)卡方檢驗(yàn)掩蓋了一個(gè)問題,即它對(duì)兩種方法陽性(或陰性)檢出率不區(qū)分真陽性(真陰性)和假陽性(假陰性)。事實(shí)上我們更想知道兩種方法都檢出真正病人或者非病人一致性如何,這里就凸顯了Kappa的重要性。
詳細(xì)操作戳以下鏈接:SPSS詳細(xì)操作:一致性檢驗(yàn)和配對(duì)卡方檢驗(yàn)/SPSS操作:一致性檢驗(yàn),如何計(jì)算kappa值?
加權(quán)Kappa和Kendall'Tb系數(shù)
除了上面提到的無序分類變量,實(shí)際過程中我們還會(huì)遇到一些有序分類資料(等級(jí)資料)的結(jié)果(表2),比如化驗(yàn)結(jié)果的“-、±、+、++、+++”,這時(shí)候就需要用到加權(quán)Kappa系數(shù)和Kendall'Tb系數(shù)來評(píng)價(jià)診斷試驗(yàn)的一致性。
加權(quán)Kappa系數(shù)是簡單Kappa系數(shù)的推廣,是用加權(quán)的方法對(duì)兩個(gè)評(píng)價(jià)結(jié)果進(jìn)行量化。較早的時(shí)候推送過一篇介紹加權(quán)Kappa的文章:SPSS操作:有序分類變量的一致性檢驗(yàn)——加權(quán)kappa,還不熟悉的伙伴,可以再回去溫習(xí)一下。
這里著重聊聊Kendall'Tb系數(shù)[1],該系數(shù)是一種非參數(shù)方法,可以用來評(píng)價(jià)兩組有序分類資料的一致性。
基本原理是將兩組測(cè)量值分別排序并轉(zhuǎn)換成秩次,檢查兩組數(shù)值的排序是否一致,如果兩組的排序完全相同,則Tb=1,如果兩組排序完全相反,則Tb=-1。還是以“加權(quán)Kappa的SPSS操作”的例子介紹一下如何實(shí)現(xiàn)Kendall'Tb系數(shù)。
某醫(yī)院擬分析不同放射科醫(yī)生對(duì)疾病嚴(yán)重程度診斷的一致性?,F(xiàn)招募兩位放射醫(yī)生(Radiologist 1和Radiologist 2)分別判斷50位受試者的MRI檢查結(jié)果,并給予Grade I(最輕)到Grade V(最重)五個(gè)等級(jí)的臨床診斷(數(shù)據(jù)庫中Grade I→Grade V分別賦值為1~5)。部分?jǐn)?shù)據(jù)如下:
SPSS中依次選擇Analyze → Correlate → Bivariate → 顯示“Bivariate Correlations”主對(duì)話框(如下圖)→ “Variables”框中放入“Radiologist 1和Radiologist 2” → 選定“Kendall’s tau-b” → OK
結(jié)果顯示,Kendall'Tb系數(shù)=0.815 (P<0.001),與加權(quán)Kappa系數(shù) (0.803,P<0.001) 結(jié)果較為接近,均提示兩位放射科醫(yī)生對(duì)50位受試者疾病嚴(yán)重程度的診斷具有較高的一致性。
配對(duì)t檢驗(yàn)/相關(guān)性分析 vs. 組內(nèi)相關(guān)系數(shù)(ICC)
上面聊了分類變量的一致性檢驗(yàn),那么遇到連續(xù)變量(表3)怎么辦?多數(shù)小伙伴一上來就要用相關(guān)分析和配對(duì)t檢驗(yàn)進(jìn)行處理,實(shí)際上這兩種方法都不能對(duì)“是否具有一致性”進(jìn)行判斷,為啥呢?且聽我慢慢道來。
(1) 相關(guān)分析
假設(shè)將兩種方法所得結(jié)果看作是兩個(gè)變量,利用相關(guān)分析可以判斷變量之間是否具有相關(guān)性(還在暈圈的小伙伴戳:SPSS超詳細(xì)教程:Pearson相關(guān)分析),但不能判斷兩者是否具有一致性。為啥呢?以“SPSS操作:組內(nèi)相關(guān)系數(shù)(ICC)”教程中的部分?jǐn)?shù)據(jù)來說明。
現(xiàn)假設(shè)有2位研究者使用相同的診斷試驗(yàn)分別測(cè)量10位受試者的血糖水平。
圖1. 兩名研究者測(cè)得血糖水平
首先,看看散點(diǎn)圖(相關(guān)分析的神器,五星級(jí)推薦?。?,以研究者A和B測(cè)得血糖水平分別作為兩個(gè)坐標(biāo),將成對(duì)的數(shù)據(jù)在直角坐標(biāo)上描點(diǎn)(圖1)。
一致性檢驗(yàn)意味著分析所有數(shù)據(jù)到Y(jié)=X直線(圖1中實(shí)線)的誤差,而相關(guān)(二元相關(guān)分析和一元直線回歸是等價(jià)的)意味著分析數(shù)據(jù)到Y(jié)=aX+b(通常a≠1,b≠0)(圖1中虛線)的殘差。
其次,相關(guān)分析容易受到離群點(diǎn)的影響,如圖1所示,兩名研究者所測(cè)得血糖水平的相關(guān)性較好(r=0.89),但是若去掉右上角的點(diǎn),相關(guān)系數(shù)會(huì)變?yōu)閞=0.81。顯然,通過相關(guān)系數(shù)來衡量兩名研究者血糖水平的關(guān)系是不妥當(dāng)?shù)摹?/p>
因此,相關(guān)分析并不能代替一致性檢驗(yàn)。
(2) 配對(duì)t檢驗(yàn)
配對(duì)t檢驗(yàn)適用于配對(duì)數(shù)據(jù),其原理是將兩種方法的所得結(jié)果之差d看成一個(gè)變量,前提條件是該變量服從方差未知的正態(tài)分布,目的是用來考察“兩種方法平均來講是否存在顯著差異”(詳見:配對(duì)樣本t檢驗(yàn),史上最完整SPSS操作教程)。
H0:μd=0,兩總體均值無差異;
H1:μd≠0,兩總體均值存在差異
如果P>0.05,只能說明目前證據(jù)尚不能認(rèn)為兩種方法的平均差值不等于0,并不能充分反映兩者的一致性。事實(shí)上,保持差值的均數(shù)和標(biāo)準(zhǔn)差不變,當(dāng)樣本量足夠大時(shí),總會(huì)得到P<0.05的結(jié)果。顯然,用配對(duì)t檢驗(yàn)來判斷診斷試驗(yàn)的一致性好壞,無疑是不合適的。
(3) 組內(nèi)相關(guān)系數(shù)(ICC)
組內(nèi)相關(guān)系數(shù)(ICC)[2,3]可用于評(píng)價(jià)不同測(cè)量方法或評(píng)價(jià)者對(duì)同一定量測(cè)量結(jié)果的一致性或可靠性。
ICC越大意味著系統(tǒng)誤差和隨機(jī)誤差引起的變異較小,ICC值介于0~1之間,一般認(rèn)為:ICC>0.75一致性較好,0.40~0.75一般,<0.40較差。
經(jīng)過數(shù)據(jù)模擬分析發(fā)現(xiàn)[3],配對(duì)t檢驗(yàn)對(duì)系統(tǒng)誤差敏感(不同測(cè)量方法、儀器、評(píng)價(jià)者),但不能同時(shí)兼顧隨機(jī)誤差(研究對(duì)象本身變異),而簡單相關(guān)系數(shù)則正好相反。因此,配對(duì)t檢驗(yàn)與簡單相關(guān)分析具有明顯的片面性,不能同時(shí)兼顧隨機(jī)誤差和系統(tǒng)誤差,用它們來評(píng)價(jià)一致性所得的結(jié)論可能是錯(cuò)誤的。
盡管組內(nèi)相關(guān)系數(shù)的計(jì)算模型目前尚有爭論,但是它同時(shí)考慮了系統(tǒng)誤差和隨機(jī)誤差的影響,且不受資料類型影響,因而在與配對(duì)t檢驗(yàn)和簡單相關(guān)分析的比較中,組內(nèi)相關(guān)系數(shù)具有明顯的優(yōu)勢(shì)。
如何計(jì)算ICC,可以點(diǎn)擊以下鏈接:SPSS操作:組內(nèi)相關(guān)系數(shù)(ICC)
參考文獻(xiàn)
1. Rank Correlation Methods, 4th Edition. 1970.
2. 中國衛(wèi)生統(tǒng)計(jì). 2011; 28:497-500.
3. 中國衛(wèi)生統(tǒng)計(jì). 2011; 28:40-2.
(想要及時(shí)獲得更多內(nèi)容可關(guān)注“醫(yī)咖會(huì)”微信公眾號(hào):傳播研究進(jìn)展,探討臨床研究設(shè)計(jì)與醫(yī)學(xué)統(tǒng)計(jì)學(xué)方法)
1.《診斷試驗(yàn)的一致性檢驗(yàn),方法那么多,你捋清楚了嗎?》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請(qǐng)聯(lián)系頁腳下方聯(lián)系方式。
2.《診斷試驗(yàn)的一致性檢驗(yàn),方法那么多,你捋清楚了嗎?》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來源地址,http://f99ss.com/caijing/15806.html