- 概念
抽样于二项分布的数据的期望方差是 = nπ(1-π),n为观测数,n为属于 Y=1组的概率。所谓 过度离势, 即观测到的响应变量的方差大于期望的二项分布的方差。过度离势会导致奇异的标准误检验和不精确的显著性检验
- 检测方法
1、比较二项分布模型的残差偏差与残差自由度,如果比值:
= 残差偏差/残差自由度
比 1 大很多,便可以认为存在过度离势
#判定过度离势,还是利用之前Affairs的例子
> deviance(fit.reduced)/df.residual(fit.reduced)
[1] 1.03248 #结果非常接近1,表明没有过度离势
2、对过度离势进行检验
需要拟合模型两次,第一次使用 family =binomial,第二次使用 family =“quasibinomial”,假设第一次glm()返回对象记为fit,第二次返回对象记为 fit.od,那么:
pchisq(summary(fit.od)$dispersion*fit$df.residual,fit$df.residual,lower =F)
提供的p值即可对零假设 H0: = 1 与备择假设 ,H1:
≠ 1 进行检验。若 p 很小(小于0.05),便可以拒绝零假设
#Affairs例子
> fit <- glm(ynaffair ~ age + yearsmarried + religiousness +
+ rating, family = binomial(), data = Affairs)
> fit.od <- glm(ynaffair ~ age + yearsmarried + religiousness +
+ rating, family = quasibinomial(), data = Affairs)
> pchisq(summary(fit.od)$dispersion * fit$df.residual,
+ fit$df.residual, lower = F)
[1] 0.340122 #显然不显著
- 过度离势的处理
当出现过度离势时,仍可使用glm()函数拟合Logistic回归,但此时需要将二项分布改为类二项分布(quasibinomial distribution)