荷蘭阿姆斯特丹大學醫學院麻醉科Patrick Schober教授發表了一篇論文《Statistics From A (Agreement) to Z (z Score): A Guide to Interpreting Common Measures of Association, Agreement, Diagnostic Accuracy, Effect Size, Heterogeneity, and Reliability in Medical Research》,對各種常見的統計指標的界值進行了介紹說明,并建議對醫學研究中的一些常用統計指標進行簡單易懂的解釋,小咖將繼續為大家一一介紹。 前面我們已經介紹了相關系數、克朗巴哈系數等,今天我們繼續介紹另外幾個統計指標。 I2統計量 在Meta分析中,在納入的研究之間觀察到的效應量大小的變異,一方面是由于隨機抽樣誤差,另一方面是由于效應量的真實變化。研究之間效應大小的真實變化稱為異質性。通常報告I2統計量來量化這種異質性。 I2表示可歸因于異質性而非抽樣誤差所造成的研究之間效應量的變異在總變異中所占的百分比。相比于評估一致性的經典指標—Cochran’ Q,I2被認為是更好的評價指標,因為它不依賴于納入研究的數量。 由于I2是一個百分比,所以它是評價異質性的一個相對指標,它不能以絕對值的形式來量化研究中效應量變異的大小。I2的范圍為0%到100%。有學者將I2按照25%、50%和75%的界值進行劃分,分別代表異質性的低、中、高。如文末表1所示。 組內相關性ICC 在對同一度量或測量工具的定量數據進行一致性評價時,如評分量表的評分者間或評分者內的信度,通常采用組內相關系數(ICC)進行評價。 ICC至少有10種,選擇最合適的ICC取決于幾個因素,包括所有評估是否由相同的評估員或不同的評估員執行;評估員是否被視為隨機樣本;主要關注點是個人評估還是平均評估;以及是否評估的是絕對一致性。 ICC系數通常在0到1之間,可以認為是受試者(或評分者)之間的變異在總變異中所占的比例。由于加權kappa統計量是ICC的一個特例,因此可以將ICC和Kappa統計量采用相似的界值進行解釋。如表1所示。 Kappa統計量 Cohen’s Kappa,加權Cohen’s Kappa,Flelss’s Kappa Cohen’s Kappa(κ)統計量是當兩名評分者(觀察者)將項目分成相互排斥的類別時,對兩名評分者(觀察者)之間的一致程度進行量化。 例如,當兩名考官對麻醉科住院醫師的考試通過或不通過進行評分時,可以使用Cohen’s Kappa來描述考官之間的一致性。對于兩名以上的評分者,通常使用Flelss’s Kappa。 加權Cohen’s Kappa可用于評估有序條目,比如美國麻醉師協會(ASA)的身體狀態分類系統評分。雖然Cohen’s Kappa對所有不一致都視為等同,但加權Cohen’s Kappa對不同意見的權重不同,主要取決于不同意見的值在有序評分量表上的距離。 和ICC一樣,Kappa的上限為+1,表示完全一致而非偶然,但與ICC不同,Kappa的下限為?1,表示一致性遠遠低于偶然預期。當觀察一致性與偶然一致性相同時,Kappa值為0。如上所述,Kappa和ICC的解釋通常類似,如表1所示。 但是,更重要的是要理解,Kappa統計量不是絕對一致性的評價標準,其本質是排除偶然后的一致性,因此對評分屬性的率非常敏感。當評估者的報告發病率非常高時,例如在上述示例中,大多數考生都通過了麻醉學考試,偶然一致性較高,盡管觀察一致性良好甚至非常好,但Kappa值也會相對較低。 由于Kappa統計量的這一特點,強烈建議作者報告Kappa值及類別的數量,以及觀察一致性和偶然一致性。 受試者工作特征曲線下面積(AUC) 受試者工作特征(Receiver Operating Characteristic,ROC)分析通常用于評估診斷試驗的準確性,在診斷試驗中,基于某種生物標記物的觀察值,將受試者分為陽性(患病)或陰性(健康)兩類。 廣義來說,ROC分析可以用于評估統計模型的預測性能,以預測二分類結果,如Logistic回歸模型。 ROC曲線的Y軸是真陽性率(靈敏度),X軸是假陽性率(1-特異度),通過連續測量變量的不同觀察切點值而繪制的一條曲線。 ROC曲線下面積(AUC),也稱為c統計量,主要用于評價診斷試驗的準確度,或二元回歸模型預測的準確度。 AUC為+1表示完全準確,0.5對應隨機分類(例如擲硬幣將患者分類為健康或疾病),如果AUC<0.5則提示準確度比偶然性還差。
表1、統計指標的界值和解釋說明
表2、統計指標的意義、應用及舉例
|
|