
在各行業的統計工作中,經常會在不同的維度上對因變量和自變量的關系進行研究分析。比如我們要統計上海和北京在不同的時間維度上(上午、下午、晚上)的車流量,這種研究,它們之間的數據是非獨立的,彼此之間具有一定的關系。
【資料圖】
針對這種數據的研究,我們就不可采用普通的線性回歸、邏輯回歸,而需要使用廣義估算方程來進行其他模型的擬合計算,下面使用SPSS軟件來為大家演示如何針對此情況進行統計分析。
一、流程步驟
本文中演示的數據如圖1,第一列表示街道ID;第二列表示車流量;第三列表示是否堵塞(1表示堵塞,0表示不堵塞);第四列表示天氣(0表示天氣下雨;1表示天氣良好或晴朗);第五列表示城市(1為上海,2為北京)。
第一步:點擊【分析】–【廣義線性模型】–【廣義估算方程】,在“重復”項中,輸入主體變量(選擇街道ID)和主體內變量(選擇車流量),然后在下方的工作相關性矩陣中,本演示數據中需選擇“可交換”。
工作相關性矩陣可選項有5個,其中“自變量”表示各數據間相互獨立;“AR(1)”表示自相關,相鄰數據間時間相距越大,則相關性越小;“可交換”表示等相關,相鄰數據間的相關性是相等的;“M相關”表示相鄰相關,即相鄰的M+1個數據有相關性,其他數據沒有相關性;“非結構化”表示不限定相關結構。
第二步:由于本演示數據是二分類數據,因此接下來我們在“模型類型”中,選擇“二元Logistic”。
第三步:在“響應”菜單中,輸入因變量為“是否堵塞”,再點擊“參考類別”按鈕,設定參考類別為“第一個值”,表示設定不堵塞這個分類為參考分類。
第四步:在“預測變量”菜單的“協變量”中,填入“天氣”和“城市”作為模型的協變量,如圖6。
第五步:在“模型”菜單中,指定“天氣”和“城市”為模型效應,如圖7。
第六步:在“統計”菜單中,除了SPSS默認幫我們勾選的項目外,我們還需要再勾選上“包括指數參數估算值”這一項。最后點擊“確定”,生成統計結果。
二、結果分析
結果得到的多個表格,我們直接看“參數估算值”表格即可,見圖9,我們主要關注顯著性一列和Exp(B)一列,Exp(B)即上述我們勾選的“指數參數估算值”,也就是通常所說的OR值(比值比)。
在天氣這行中我們可以看到,顯著性為0.046,Exp(B)為0.341,這說明天氣晴朗造成堵塞的概率是天氣下雨造成堵塞的概率的0.341倍,且顯著性低于0.05,說明結論具有統計學意義;另外在城市一行中,我們可以看到顯著性為0.531,這說明城市這一自變量在此演示數據中不具有統計學意義。
通過上述IBM SPSS Statistics的講解,我們就完成了使用廣義估算方程,對非獨立的相關數據進行統計分析的目的,分析的結果也相對準確。對本模型感興趣的小伙伴們,可以自己動動手在SPSS軟件中進行嘗試哦。
標簽: