使用IBM SPSS Statistics進行數據驗證! 當前觀點

2023-05-18 10:22:47 來源:軟服之家

隨機計算能力的提高,對數據信息的需求也不斷增長,同時收集數據越來越多,這就導致出現更多的數據輸入錯誤。如果使用這些錯誤數據用于SPSS軟件的預測模型來獲取預測結果,會導致預測結果出現較大偏差,因此用于預測的數據需要保持干凈。如果使用傳統方法手動對預測數據進行驗證,龐大的數據已經超人力所能處理的能力,SPSS軟件就能實現自動化的數據驗證,極大節省了人力物力。


(相關資料圖)

一、驗證規則

數據驗證規則作用是確定個案是否有效,SPSS軟件中有兩種類型的驗證規則:單變量規則、交叉變量規則。驗證規則保存在數據文件的數據字典中,可以達到一次規則多次復用的效果。

1、單變量規則的名稱必須是唯一的,適用于數值、字符串和日期變量類型,是用戶自定義的規則,但是僅用于單個變量。

2、交叉變量規則是用戶自定義的規則,不僅可以用于單個變量,而且還可用于組合變量。

載入預定義規則是通過從安裝中所包括的外部數據文件載入預定義規則,這樣可以達到快速獲取一組可供使用的驗證規則。

二、數據驗證

數據驗證是指對活動那個數據集中存在可疑的和無效的個案、變量以及數據值進行驗證。點擊SPSS頂部菜單欄“數據”-“驗證”-“驗證數據”,即可打開驗證數據窗口。然后點擊頂部“基本檢查”菜單,該菜單包括三個模塊:分析變量、個案標識。

1、分析變量。如果在“變量”菜單選擇了任何分析變量,則可選擇最大缺失值百分比、單個變量中個案所占的最大百分比、技術為1的類別的最大百分比、最小變異系數、最小標準差。

2、個案標識。如果在“變量”菜單欄選擇了任何個案標識變量,則可以選擇標記不完整的標識、標記重復標識。

點擊單變量規則菜單,可以自定義單變量規則、重新掃描。定義規則可以選擇所有變量、數值變量、字符串變量和日期變量設置規則。重新掃描用于更新新分布摘要。

點擊交叉變量規則,可以自定義邏輯表達式定義規則,表達式可以通過變量、函數和特殊變量、符號進行定義。

輸出是指輸出違反規則個案數據的報告。保存將違規的變量保存到活動數據集。

三、結果解析

通過數據驗證的設置,并且將演示數據集運行,得到如下結果??梢钥吹津炞C數據包括標識檢查、個案檢查。標識檢查中包括不完整的標識、重復的標識。

標簽:

上一篇:solidworks焊件增強工具插件
下一篇:最后一頁