類別資料分析 最基本也是最前提的知識就是卡方檢定。

卡方檢定是卡方分配 (Chi-square distribution) 的一種應用。卡方分配是一種概率的分布模式,它是「連續型」機率分配當中Gamma函數的一種特殊型態;順帶一提,指數分配也是從Gamma分配而來的。

 

 ─ 卡方分配的由來 ─ 

先討論數學上卡方分配的意義。
Gamma 分配分為Gamma 函數及機率函數

Gamma函數

Gamma機率函數

加上討論可靠度時常用的累積機率函數,積分到t時的累積機率如下:

此時Gamma 分配的期望值和變異數為

而當 α =v/2,β = 2 時,卡方機率函數就誕生了,而卡方分配的期望值和變異數為

V為自由度

如果我們把卡方分配的圖形依自由度不同畫成一個比較圖,可以看出卡方分配的結果會隨著自由度的增加越來越趨近常態分配的結果。

卡方分配機率圖

之所以先從比較難理解的數學角度上去討論卡方分配,是為了從卡方機率的結果來討論統計上的意義。
如果現有一個母體群,我們重覆抽樣並計算每次抽樣的變異數,會發現機率分配呈現一個非對稱的右偏常態分配結果。
當抽樣數 (自由度) 越來越多時,其變異數的機率分配會趨近於一個對稱的常態分配。

因此卡方分配和常態分配間的一個重要關係:

z = (x - μ)/σ, z為 i 個互相獨立的常態分配,則 Z^2 = X^2 (v=1)

X^2(v=1)為標準卡方分配。

當自由度夠大時 (一般統計會取30,但不限於),可以用下面的公式轉換:

 

 ─ 卡方適合度檢定 ─ 

卡方分配是推論統計中最重要的分配之一,應用範圍很廣,從母體變異數估計、檢定、卡方近似應用、類別資料分析及卡方檢定都會用到這個函數。而卡方檢定不要求母體所屬分配,母體參數也非必要,這是最為強大的應用條件,因此卡方檢定在無母數統計也佔十分重要的一個角色。

卡方檢定可以分為三種:

卡方適合度檢定
卡方同質性檢定
卡方獨立性檢定

要進行卡方檢定前,卡方統計量是不可或缺的。
卡方統計量是由 1900 年的 Karl Pearson 提出,已經延用了100多年,雖然後續有還有葉氏連續校正法提出,但因為其方法保守且
型II 錯誤率高,至今較為主流的依然是卡方檢定。


型II的錯誤示意如下:

現法官審理一案,在無任何證據前,對嫌犯的假定及可能之判決結果為
H
0 = 無罪
H
1 = 有罪
則有可能發生的判決結果


當資料整理成只涉及理論次數和觀測次數時,卡方統計量為如下:

V為自由度
K為抽樣組別的總項次
m為利用抽樣參數來代替母體參數的項次

在執行卡方適合度檢定時,m 是十分重要的,以下舉個例子說明。

某新型交換機執行加速壽命測試100件的失效時間紀錄,想知道這個新型產品能否符合原本平均失效時間為8.9小時的設計。

卡方適合度檢定的假設是
H
0 = 資料分佈匹配期望值
H
1 = 資料分佈不匹配期望值

新型交換機加速壽命測試數據

MTBF=8.9 期望失效數

然而這個案例的自由度是 6-1-1 = 4,而非 6-1 = 5。因為我們用預估的平均失效時間取代了母體的平均失效時間,因此m=1,V = 6-1-1 = 4。
而信賴水準 97.5%、自由度為 4 的卡方統計量為 11.143,因此我們不能拒絕 H
假設,也就是此新型產品符合MTBF = 8.9小時的設計。

 

 ─ 卡方獨立性檢定 ─ 

如果今天有一間拉麵店想推一個針對情侶的特惠專案,點一個主餐拉麵加附餐飯可以有優惠折扣。
實行專案兩週後,店主想降低備料成本,於是想了解點某種麵的客戶是否也會搭配相對的附餐,此時就可以利用卡方獨立性檢定。

拉麵店共有三種拉麵:醬油拉麵、海老拉麵和蒜味拉麵。
附餐為:豬排飯、炸腰內肉飯及味噌飯糰。

卡方獨立檢定的假設是
H
0 = 資料彼此互相獨立
H
1 = 資料彼此不獨立
因此這個案例中的假設會變成
H
0 = 主餐拉麵和附餐間沒有關係
H
1 = 客人點麵和搭配附餐有相當程度關係

統計兩週點情侶特惠專案的資料

整理成二維表資料

卡方獨立檢定的理論次數十分簡單。回憶一下基本的機率定理,如果 A 事件和 B 事件彼此獨立,則同時發生 A & B 的機率即 P(A) * P(B)
因此可以可以將這個資料的理論值算出。

主附餐資料的理論機率

主附餐資料的理論次數

而卡方獨立檢定的統計值則是


其中n1及n2指的就是資料的橫行和直行項次。

此案例的統計量為10.7602,小於信賴度水準97.5%、自由度為 4 的卡方統計量 (可以excel chisq.inv 或 chisq.inv.rt) 為11.143。
因此不能拒絕H0 = 彼此資料互相獨立 = 客人點主餐和配餐間的搭配沒有關聯。
根據此檢定,店長沒辦法依據一般主餐銷售的量來決定附餐的備料。

不過請注意,這個案例的統計量正好落在信賴度水準95%和97.5%的數據之間,因此顯著程度的選定直接影響檢定的結果,也決定 型I 錯誤的機率。
因此店長在決定備料時,必須精算備料倉儲成本和來店客人點不到餐之間的利益損失,估計不同狀況下的風險,做出較佳的權衡。

 

 ─ 卡方同質性檢定 ─ 

卡方同質性檢定的做法完全等同於獨立檢定,只是檢定目的不同。
它的假設如下:
H
0 = 檢定資料來自同一母體,或是母體分配相同
H
1 = 檢定資料來自不同母體,或是母體分配不相同

為什麼母體分配相不相同會決定數項資料是否屬於「同質」?

記得一開始提到,卡方分配的統計意義來自於反覆抽樣並比較其變異數分佈的結果。進而對每個抽樣的變異數乘上 n-1 (自由度 = 樣本數-1),再除以母體變異數則形成卡方變數

F-test 裡討論過,實際應用上,變異數更能代表一個設備、事件或抽樣的特質。
當兩個設備的產出變異數相等時,表示二者間的能力並無顯著差異。
同樣無法拒絕兩組抽樣的變異數分配相同時,必須承認二者間所代表的性質並無顯著差異。

拿一個簡單的例子來做個說明。
這是林清山老師在「心理與教育統計學」(1992) 中所使用的案例:研究調查老師、學生、家長及心理專家對於懲罰的意見,分為贊成、反對及沒意見三個選項,並將資料整理如下

因此可以得出此例的卡方統計量為31.662,大於97.5%信賴度、自由度為6的卡方統計量14.449。表示拒絕H0假設,也就是受調查的四個族群對懲罰的意見大不相同。

文章標籤
創作者介紹

生活的希格斯實驗室

Yashi Yang 發表在 痞客邦 PIXNET 留言(0) 人氣()