少妇脱了内裤让我添,久久久久亚洲精品无码网址蜜桃,性色av免费观看,久久人妻av无码中文专区

分享

回歸分析時何時設置啞變量?如何設置?手把手教會SPSS分析

 骨科筆記 2020-09-14

SPSS 教程36 啞變量設置分析

啞變量(DummyVariable),也叫虛擬變量,是解決回歸分析分類自變量的重要舉措。它是“不發聲”的過程變量,通過設置啞變量,可將多分類變量進行二值化的處理,從而結局多分類特別是無需多分類變量無法納入回歸分析模型的尷尬局面。

回歸分析的棘手問題--非線性關系


1



回歸分析要求自變量與應變量存在著線性關系

回歸分析主要探討自變量x與研究結局變量y的關系,無論線性回歸,logistic回歸或者COX回歸都要求x與y或者y的轉換存在著線性關系。x對y的影響,可以用回歸系數b值來反映。

b1意味著,x平均每增加一個單位y增加的量。比如,x是年齡,y是血壓,那么x平均增加一歲,血壓將增加的數量。這樣的解釋,要求x與y有線性關系,意味著x無論是50歲,還是60歲,增加1個單位的情況下,血壓增加的幅度都一致。否則,b1,不代表x是50歲時對血壓的影響,也不代表60歲時對血壓的影響。


2



回歸分析無法去探討無序多分類自變量與結局的關系

最令人棘手的是,無序分類數據的問題。它與應變量之間根本不存在線性關系的可能。

例1: Hosmer和Lemeshow于1989年研究了低出生體重嬰兒的影響因素,結果變量為是否娩出低出生體重兒,考慮的自變量有產婦妊娠前體重、產婦年齡、種族、是否吸煙、早產次數、是否患高血壓等。(數據文件見:logistic_step.sav。)


該數據庫中有一個變量為種族,變量值為白人/黑人/其他人,為無序多分類資料(賦值分別是1、2、3)。如果該變量納入回歸模型,怎么解讀回歸系數b值呢?那么就是自變量從1到2對y的影響和從2到3影響的平均值。也就是白人到黑人,黑人到其他人種變化帶來的影響的平均值。這個結果無法說明任何問題,既不能說明黑人相對白人出生缺陷的嚴重性,也不能說其他人種的影響。這個變量是無序分類變量,各變量之間沒有等級關系。因此,取平均值沒有任何實際意義。

因此,無序多分類變量不能直接納入回歸開展分析。

回歸分析的啞變量設置

對于種族的影響,其實研究最想知道的是,(1)相對白人,黑人出生缺陷風險會提升多少? (2)相對白人,其它人種出生缺陷風險會提升多少?  因此,一個變量需要回答兩個問題,最好的辦法是把這個變量分為兩個子變量,分別計算b值和OR值,這個子變量便是啞變量。

一般情況下,啞變量個數是原變量分類數的n-1個,比如種族變量是3分類變量,則一個種族變量產生了2個二分類(變量值為0、1)啞變量。這些啞變量是過程性變量,一般不體現在原始數據庫中,但它們作為實體變量代替原變量進入到回歸模型中。

其中,b1反映的是相對于白人,黑人對y的影響,b2反映的是相對于白人,其他人種對y的影響。從而解決了無序分類變量回歸系數b值無法進行取平均值的尷尬局面。

logistic回歸啞變量設置

logistic回歸啞變量設置的十分簡單,SPSS軟件通過簡單、菜單式的操作既可以完成。


1



logistic回歸分析SPSS操作過程

logistic回歸SPSS分析的界面,選擇“分類”

在'分類'界面,

選擇race(種族)到右選框,

選擇參照類別(第一個、還是最后一個),這里的第一還是最后,根據數據庫賦值來定義。本數據庫race賦值為1、2、3,若參考類別是第一個,則1為對照(白人),若參考類別是最后一個,則3為對照(其它人)。本例設定白人為對照。

最后需要點擊“變化量”,確認是以第一個作為對照,此時選項框中race會顯

示first。


2



logistic回歸分析結果及其解讀

啞變量設置之后,統計分析首先非常重要的是看“分類變量編碼”的表格,以確定啞變量的分配設置。

在該表中,列出了兩個啞變量(1)、(2),(1)和(2)均已白人作為對照,(1)這一列數字1.000所在行是黑人,因此表明(1)是是否黑人的變量,實際將開展黑人vs白人的比較。,(2)這一列數字1.000所在行是其它種族,因此表明(1)是是否其他人的變量,實際將開展其它人vs白人的比較。

然后我們就可以觀察SPSS logistic分析結果。

上圖SPSS分析結果,更詳細的內容可以學習logistic回歸的推文:

Logistic 回歸簡明教程:原理、SPSS操作、結果解讀與報告撰寫

這里只介紹啞變量的分析結果。種族(1)和種族(2)在上表已經說明,分別代表黑人vs白人的比較、其他人vs白人的比較。結果顯示,相對白人,黑人與低出生體重存在著關聯(OR=4.60,P=0.015);相對白人,其它種族與低出生體重存在著關聯(OR=2.75,P=0.042)。

Cox回歸啞變量的SPSS操作

Cox回歸啞變量設置的十分簡單,且方式與logistic回歸完全一致,SPSS軟件通過簡單、菜單式的操作既可以完成。這里引用之前的案例開展分析。


1



分析案例

案例2:這是一項關于胰腺癌病人術后生存時間的隊列研究。該研究的終點為死亡,包括很多可能影響生存的因素。數據庫見pancer.sav


這個數據庫中ch(胰膽管浸潤程度)是分類變量,同樣可以進行啞變量設置。該變量有4個水平,可以設置啞變量,并以ch0作為對照。

2



SPSS操作界面

Cox回歸SPSS分析的界面,選擇“分類”

分類界面與logistic回歸分析的操作手法完全一致,也分為①、②、



3



Cox回歸SPSS結果及解讀

同樣,Cox回歸也給出“分類變量編碼”的表格,以確定啞變量的分配設置。

在該表中,列出了3個啞變量(1)、(2),(3),三個變量中,對照組都是CH0的等級。(1)為是否CH1的變量,實際將開展CH1vsCH0的比較;(2)為是否CH2的變量,實際將開展CH2vsCH0的比較;(3)為是否CH3的變量,實際將開展CH3vsCH0的比較。


上圖SPSS分析結果,更詳細的內容可以學習Cox回歸的推文

初學者如何理解Cox回歸和HR值

這里只介紹啞變量的分析結果。結果顯示,相對ch0,CH1、CH2、CH3不會增加胰腺癌的死亡風險(P值分別是0.770、0.539、0.359)。

線性回歸啞變量的SPSS操作

線性回歸SPSS操作有兩種方法,常規的線性回歸的啞變量設置十分復雜,此外還可以采用廣義線性模型的模塊進行啞變量的設置分析。


1



分析案例

例3:研究究高血壓患者血壓與性別、年齡、身高、體重、戶籍等變量的關系,隨機測量了32名40歲以上的血壓y、年齡X1、體重指數X2、性別X3,戶籍X4試建立多重線性回歸方程。數據文件見mreg2.sav。


本例中戶籍是無序多分類變量,其變量值1=農村,2=城鎮,3=城市,在這種情況下,線性回歸方程也無法直接將它納入模型進行分析。需要對此進行啞變量的設置。


2



常規的線性回歸分析方法

常規線性回歸是相對于廣義線性模型而言,采用最小二乘法原則對回歸系數進行估計的一種方法。

對于這個內容,先前課程已經進行詳細介紹:
多因素線性回歸分析,為什么和單因素回歸結果不一樣?

這里介紹下如何解決啞變量的問題。

對線性回歸,沒有現成的簡易的軟件自動設置的方法,需要首先進行計算產生啞變量,再進行回歸分析。

(1)啞變量設置
SPSS軟件啞變量設置有人工法和軟件法,常見的是軟件法:首先,點擊轉換--創建虛變量,接著選擇X4進行啞變量設置,設置啞變量的名稱X4( 系統將產生X4_1,X4_2,X4_3三個變量)



然后得到3個啞變量的結果,本文將去X4_2、X4_3進行分析。其中X4_2代表城鎮,對照組是農村;X4_3代表城市,對照組是農村。

(2)線性回歸分析
接著開展線性回歸分析,啞變量設置之后,線性回歸分析自變量篩選的方式不再和常規的方式一致,它需要分兩部分進行。第一,X4_2、X4_3納入自變量范疇(X4,和X4_1請忽略),方法中必須保持'輸入(Enter)',點擊“下一個”


點擊“下一個之后”,在自變量繼續填入其它自變量,方法中保持'輸入(Enter)或者下來其它自變量刪選的方法。

最后,在回歸分析第2步基礎上,得到兩個啞變量的結果,分別是城鎮VS農村和城市VS農村的回歸系數b值。結果顯示,與對農村相比,城鎮居民血壓值無統計學意義(P=0.249),城市血壓值具有統計學差異(P=0.021)。


2



利用廣義線性回歸模型開展分析

廣義線性模型自動設置啞變量并進行分析,對于進行多次啞變量設置的場景具有優勢。

(1)SPSS軟件設置

首先,進入廣義線性模型的界面

然后,模型類型選擇“線性”


“響應”選擇“血壓”作為應變量Y

“預測變量”中,選擇年齡X1、BMI X2是定量數據,進入協變量;性別X3和戶籍X4分類變量進入因子;因子下方“選項”,一般選擇“降序”。

“模型”將四個變量作為主效應選入右框;

其它設置默認設置,當然需要得到更多信息者,需要更多的設置。

(2)分析結果

廣義線性模型給出了關鍵的結果如下:

廣義線性模型基本上與最小二乘法得到線性回歸方法結果一致。上表結果顯示,與對農村相比,城鎮居民血壓值無統計學意義(P=0.221),城市血壓值具有統計學差異(P=0.013)。

總的來說廣義線性模型相對于簡單的線性回歸來說,過程雖復雜,但少了設置啞變量的過程,而且結果成列更容易閱讀,同時可以快速處理多個啞變量的場景,是推薦的處理方法。

啞變量設置的注意事項

1.線性條件不成立是啞變量設置的第一原因

無論線性、logistic還是Cox回歸,都要求自變量與y或者y轉換值存在著線性關系。如果線性條件不成立,則一種研究方案是對自變量進行啞變量化。其中,無序多分類數據由于不存在著線性的可能性,必須要設定啞變量、有序多分類變量若線性關系成立則可以不設啞變量,若關系不成立,則需要設置啞變量,而當自變量是定量變量,若線性關系不成立,則可以先將自變量分類化處理,再考慮進行啞變量設置分析。關于自變量是定量變量的回歸分析方法,本系列將在下一講著重進行介紹。

如何判斷線性條件是否成立呢?具體可以回顧本系列上一講的鏈接。

一文匯總三大回歸的基本應用條件、診斷與處理方法(線性、logistic、Cox)

這其中,針對有序分類變量,判斷線性關系非常重要的一種方法是,分別進行啞變量設置和不進行啞變量設置;比如有三分組變量,首先進行啞變量設置計算。得到回歸系數b1和b2,接著進行不設啞變量分析得到b值,若b2-b1=b1或者b2-b1=b大致成立,則說明線性條件成立。具體案例,我將在下一講再進行進一步陳述。

2. 啞變量設置對照組的考慮

啞變量設置需要考慮的問題包括,第一啞變量設置必須要選擇合適的對照,可能是第一組,也可能是最后一組,基本原則一般是,對照組樣本量不能過少,對照應該是主流人群、具有特地意義的人群、或者臨床研究的正常水平。

例如:我們在研究BMI指數,將BMI指數分為四組進行分析時,一般情況下,是以18.5-24這一組正常人群作為對照。很多人統計分析偷懶,將<18.5或者>28的一組作為對照,是非常不合適的。

3. 有序分類變量要不要設置啞變量?

在本文的COX回歸中,我針對胰膽管浸潤程度進行了啞變量設置分析,實際上,之前推文有對該案例進行分析,沒有進行啞變量設置。胰膽管浸潤程度是有序變量,允許兩種情況同時存在。那么何時考慮何種方法呢?

初學者如何理解Cox回歸和HR值

首先,我們需要考慮有序分類變變量與結局的線性關系是否成立,若線性關系成立,則可以不設啞變量,若線性關系不成立,必須設置啞變量。

其次,若線性關系成立,則需要考慮有序自變量等級關系是否等距,很多情況下,等級變量嚴重不等距,也應該考慮設置啞變量。

再次,如果上述條件都成立,則可以考慮兩種分析結果同時進行分析,或者選擇一種更有利于專業應用的結果,或者選擇一種更有利于論文寫作結果解讀的的方式進行分析。

關于啞變量更多的細節,我在下一講再繼續介紹。

-本文結束-

系列撰寫者:鄭衛軍,浙江中醫藥大學醫學統計學教研室主任。這里不妨廣而告之,如果您有一個臨床試驗項目,正處于設計階段,并且將要過醫院倫理委員會審核的,不妨聯系鄭老師統計團隊,我們可以幫助您更好的改善臨床試驗。微信號ZZ566665。

本篇是SPSS 教程之回歸建模策略第3篇,更多回歸教程請點擊下文閱讀

1. 一道饕餮大餐來了!手把手教你如何科學地構建回歸模型!

2. 一文匯總三大回歸的基本應用條件、診斷與處理方法(線性、logistic、Cox)


支持鄭老師,
快來點擊“分享”

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發表

    請遵守用戶 評論公約

    類似文章 更多

    主站蜘蛛池模板: 国产精品特级毛片一区二区三区| 久久99精品久久久久久久久久| 亚洲 自拍 另类 欧美 综合| 欧美亅性猛交内射| 亚洲中文字幕无码卡通动漫野外| 久久亚洲人成综合网| 麻豆传传媒久久久爱| 欧美激情一区二区三区在线| 国产日韩欧美| 亚洲av成人片色在线观看高潮| 久久久久无码国产精品一区| 伊伊人成亚洲综合人网| 久久这里只有精品18| 欧美老熟妇喷水| 亚洲综合最新无码专区| 欧美巨大黑人极品精男| 天天狠天天添日日拍| 女人张开腿让男桶喷水高潮| 国产成人精品免费久久久久| 久久伊99综合婷婷久久伊| 国产超碰女人任你爽| 亚洲乱亚洲乱妇无码麻豆| 国产成人综合色视频精品| 日韩精品无码一区二区中文字幕| 亚洲成在人线视av| 99精品国产在热久久无毒不卡| 精品人妻少妇一区二区三区在线| 老熟妇仑乱视频一区二区| 免费人成在线观看网站品爱网| 国产精品网红尤物福利在线观看| 少妇高潮喷水久久久影院| 久久大香香蕉国产拍国| 国产99久60在线视频 | 传媒| 四虎影视884a精品国产| 亚洲一区二区三区四区五区黄| 亚洲人精品亚洲人成在线| 人妻无码免费一区二区三区| 超清av在线播放不卡无码| 欧美成人一区二区三区不卡| 欧美成人一区二区三区在线观看| 日本高清视频www|