分類
生物統計

差異檢定之生物統計策略及基本觀念

生物領域研究常是比較多組間是否有顯著差異
本篇文章介紹使用統計軟體時採用的策略及一定要知道基本觀念
其實要注意的細節很多,但為了要讓大家可以先有個簡單的概念
所以這裡就只以單因子變異數分析(one-way ANOVA)為例
舉例來說就是比較ABCD四組動物的採食量之平均值有沒有顯著差異
在要使用哪種統計方法之前需要檢測你的資料是否符合一些假設
1.各組資料是否皆為常態分佈
2. 各組資料變異數是否同質性
以下詳細介紹
1. 各組資料是否皆為常態分佈
也就是常態性檢定,其要求每組資料所對應的母體都應該要符合常態分佈。
舉例來說,ABCD四組動物的採食量數值皆為常態分佈
要知道資料有沒有符合常態分佈,常用的統計方法有三種
(1) Shapiro-Wilk常態性檢定
適用於小樣本(3<n<50),對峰型偏移很敏感,有些微偏離常態分佈就會被拒絕。
(2) K-S常態性檢定
適用於大樣本(>50)
上述兩者的檢定方法的虛無假設(H0)都是資料符合常態分佈,所以P < 0.05則不符合常態分佈。
舉例來說,下圖以Shapiro-Wilk常態性檢定四組 p-value皆大於0.05,所以皆符合常態分佈的假設。






(3) Q-Q圖檢定常態性
這方法是以作圖判斷資料常態性,如下圖
如果有四組的話就會有四張圖喔,縱軸是資料的數值,橫軸是對應之資料標準化數值(將資料修正成平均值為0,標準差為1)
判斷方式為資料的分布是否接近45度角,像這張看起來就是有接近,則可判斷為常態分佈。
2. 各組資料變異數是否同質性
變異數同質性假定要求各組資料的母體變異數必須相等。
常用檢定方法有兩種:
(1) 圖形檢定
檢定變異數同質性可以使用合鬚圖,判斷各組資料離散程度是否接近,還有沒有離異值。
如下圖,橫軸為不同組別,縱軸為觀測值,大致看分布情況差不多,第2組有兩個離異值,需要注意可能會影響同質性。
(2) Levene變異數同質性檢定
該方法虛無假說為各組資料滿足變異數同質性。




如上圖,p-value 0.4858,大於0.05,無法拒絕H0
故各組符合變異數同質性。
看完自己的資料是否符合以上兩種假設後才可以來選擇適合的差異統計方法
第一個會用到假設是常態性檢定,
符合常態分佈的資料才可以進行變異數分析(ANOVA)
不符合則需要使用無母數檢定或是將資料轉形成符合常態分佈,
後者難度較高,通常都直接選擇無母數檢定,稍後再介紹。
使用ANOVA會得到類似下方的表格




其虛無假說為各組間平均值皆相等,該表檢定的P值為0.00879,因此拒絕H0
代表至少有兩組是有顯著差異
而要知道哪些組別間有顯著差異則需要進行事後檢定 (post hoc tests)
有很多種方式,這裡就不多介紹了,
不同種都有其適合的情況,可以參考以下連結介紹
有個很重要的觀念要說,如果P > 0.05,表示各組間沒有顯著差異,
這時不能就直接往下做事後檢定,因為前提不成立的情況下是不能執行的。
可以改採t-test,兩兩比較,但需要注意第一型錯誤(偽陽性率)會提高,
也就是沒有差異但誤判為有差異的情況。
而第二個假設的同質性檢定,在變異數分析中,對其要求是相對較寬鬆的,
各組間變異數略有不同時,對分析結果影響不太大,
特別是當各組裡的樣本相同時,不相等的變異數對ANOVA是較無影響的。
但其實還是有統計方法是修正不同變異數的影響的,這裡也是不多作介紹。
其實在自然界多數情況下,很多觀測值都不是常態分佈,
這時就會轉而採用無母數統計方法,其就沒有需要符合常態分佈這項假設了。
虛無假設不是以平均值是否有差異,
而是將數值以排序(rank)表示,改成以中位數是否有差異
這裡介紹兩種無母數對應的one-way ANOVA方法
1. Kruskal–Wallis檢定
適用各組變異數符合同質性,對應的事後檢定方法為 Dunn Post Hoc test檢定
2.Welch’s anova
是用各組變異數不相等時,對應的事後檢定為Games-Howell檢定
判別方法都跟ANOVA一樣,都會給p-value,判斷多組間是否有差異。
如下圖,以Kruskal–Wallis檢定,得到 P < 0.05,四組中至少有兩組有差異。





事後檢定以 Dunn Post Hoc test檢定,可以知道A-CB-D間沒有差異,其餘皆有顯著差異。
這篇希望能夠讓對生物統計很困擾的人對統計有點概念,
還有一個觀念要讓大家知道,
統計分析的本質是從資料中找出結論,從資料中尋找啟發,而不是尋找支持。
真正的統計分析事先是沒有結論的,透過對資料的分析才得出結論。
對以上介紹有疑問或是需要指正的地方,歡迎大家留言討論。
以上的範例皆以R語言得出。
附上一些參考書籍與來源:
書籍:

發表迴響