泊松分布的方差和均值相等。当响应变量观测的方差比依据泊松分布预测的方差大时,泊松分布回归可能发生 过度离势
- 原因
处理计数数据时经常发生过度离势,且过度离势会对结果的可解释性造成负面影响
如果存在过度离势,在模型中无法进行解释,那么可能会得到很小的标准误和置信区间,并且显著性及那样也过于宽松(也就是说,你将会发现并不真实存在的效应)
a、遗漏了某个重要的预测变量
b、可能因为事件相关
在泊松分布的观测中,计算中每次事件都被认为是独立发生的,以癫痫病为例,这以为着对于任何病人,每次癫痫发病的概率与其他癫痫发病的概率互相独立,但是这个假设通常都无法满足,对某个病人,在已知他已经发生了39次癫痫时,第一次发生癫痫的概率不可能与第40次发生癫痫的概率相同
c、在纵向数据分析中,重复测量的数据由于内在群聚特性可导致过度离势。此处并不讨论纵向泊松模型
- 检测
1、与Logistic回归类似,残差变差与残差自由度的比例远远大于1,表明存在过度离势
#还是Seizures的数据
> deviance(fit)/df.residual(fit)
[1] 10.1717 #结果远大于1
2、qcc包提供了对泊松模型过度离势的检验方法
library(qcc)
qcc.overdispersion.test(breslow.dat$sumY,type="possion")
#得到的结果会发现 p-value小于 0.05
- 处理过度离势
通过用 family="quasipoisson"替代 family=“poisson” 仍然可以使用 glm()函数对该数据进行拟合,这与Logistic回归处理过度离势的方法是相同的
> fit.od <- glm(sumY ~ Base + Age + Trt, data=breslow.dat,
+ family=quasipoisson())
> summary(fit.od)
Call:
glm(formula = sumY ~ Base + Age + Trt, family = quasipoisson(), #family =quasipoisson
data = breslow.dat)
Deviance Residuals:
Min 1Q Median 3Q Max
-6.0569 -2.0433 -0.9397 0.7929 11.0061
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.948826 0.465091 4.190 0.000102 ***
Base 0.022652 0.001747 12.969 < 2e-16 ***
Age 0.022740 0.013800 1.648 0.105085
Trtprogabide -0.152701 0.163943 -0.931 0.355702
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasipoisson family taken to be 11.76075)
Null deviance: 2122.73 on 58 degrees of freedom
Residual deviance: 559.44 on 55 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 5
注意,使用类泊松分布(quasi-Poisson)方法所得的参数估计与泊松方法相同,但标准误变大了许多。此处,标准误差越大将会导致Trt(和Age)的p值越大于0.05,当考虑过度离势,并且控制基数癫痫数和年龄时,并没有充足的证据表明药物治疗相对于使用安慰剂能明显降低癫痫发病次数