分類
生物統計

雙因子變異數分析(Two-way ANOVA)

最近接觸到滿多次雙因子變異數分析,想說就記錄一下了解這個統計方法的過程吧
還是先說明什麼是變異數分析(analysis of variance, ANOVA)它是一種分析類別自變數對數值應變數影響的統計方法。
舉例說給雞添加兩種營養物質(A, B),並分析這兩種處裡各自對體增重的影響。
添加營養物質就是類別自變數; 體增重為數值應變數。
跳回雙因子變異數分析吧,就是指兩項類別自變數對數值應變數的影響。
從剛才例子中衍生,原本只有一項類別自變數(營養物質),又多加一項環境溫度(20, 25, 30)
也就是一隻雞同時接受兩種因子影響(如餵飼A物質且處於25)組合總共有2X3= 6組處理
接下用R進行演示一邊說明如何使用two-way anova
對R有興趣可以搭配程式碼,一般直接看統計結果即可。
資料呈現如下表,每組有10隻雞的體增重(由於只是演示,請忽略體增重的合理性)

一、輸入資料

也附上表格檔
示範表格檔
二、描述性統計(盒鬚圖、平均值及標準差)

boxplot可使用內建函式(boxplot)或用ggplot繪圖



六個組別各自的平均值(mean)與標準差(sd)


三、主效果變異數分析
先不考慮交互作用,只分析營養物質(supp)和環境溫度(temp)個別對體增重(gain)的影響效果

()主效果變異數分析表
從變異數分析表可看出兩項因子都對應變數有顯著影響(Pr(>F) <0.05)


(二) 參數估計

這些數值是模型的各參數的係數
(Intercept)欄位(截距項)表示在不考慮兩個因子影響的情況下,體增重的平均值為8.755
後面三個欄位則是表示強迫將該影響因子參數變為0
suppB欄位指以suppA為參照標準,也就是其參數為0suppB的參數為3.7
也可以想成是以suppA當成是控制組,比較與suppB的差異
四、交互作用效果分析
再來是雙因子變異數分析的重點,除了兩個因子的影響下,還需要考慮兩因子是否有交互作用
什麼又是交互作用呢?
無交互效果時,一個因子各處理組間平均值的差異不會隨另一個因子的處裡的變化而變化
也就是營養物質A與B處理後的體增重不會因為處於不同的環境溫度而影響
假設餵食A的體增重是10B3,因此差異是7,而這個差異不會因為在202530度的環境而有變化


(一)考慮交互作用的變異數分析表


可以發現多了一列supp:temp,這就是交互作用項,要注意每個組合樣本數為2以上才可計算交互作用
除了兩個主效果有顯著效果以外,交互作用也是顯著的
(二)參數估計


與沒有考慮交互作用的呈現方式一樣,多了交互作用項的參數
(三)交互作用圖
也可以以圖呈現判斷是否有交互作用
線是接近平行的話,表示交互作用弱,圖中發現會有交互作用主要是由於環境溫度(30)
比較模型
剛剛建立兩種ANOVA,一種沒有考慮交互作用,另一種有
如果有顯著交互作用校果的話,後續事後檢定則應該可慮交互作用的影響
交互作用不顯著的話則可直接使用主效果變異數分析
在發現交互作用沒有顯著的話,可以比較兩種模型,如果沒有差異則可直接使用主效果ANOVA
以這裡的結果來看兩個模型是有顯著差異的,所以不可直接使用沒有考慮交互作用的模型
六、使用變異數分析的前提
這觀念應該是最重要的,直接決定統計結果的準確度,但也是幾乎直接被忽略的
要使用ANOVA是對資料有要求的
  1. 數值資料需要連續分布
  2. 數值應變數符合常態分佈
  3. 不同組別的變異數相等
如果不符合前提則可使用無母數分析,也就是將數值以排序表示
七、事後檢定
確認因子有影響後,通常都會想要再進一步知道那些組間有差異
這次選擇以TukeyHSD作為事後檢定的統計方法




 (一)不考慮交互作用



兩個因子就會分開探討
營養物質A、B之間有顯著差異(diff 就是剛才提到的參數估計,也是兩處理差值)
環境溫度也都是倆倆之間皆有顯著差異
(二) 考慮交互作用


結果由於考慮交互作用,每種組合都會進行比較,從而判斷實際上是那些組合下兩因子有交互影響。

發表迴響