练习R:glm()函数连续自变量的二项logistic回归

原创
04/15 21:54
阅读数 146

用《谁说菜鸟不会数据分析SPSS篇》的续约数据,收集到各商户id,注册时长、营业收入、成本数据以及合作续约的情况,用R实现连续自变量的二项logistic回归。


因变量是否续约,自变量包括注册时长、营业收入、成本,均为连续数据。SPSS实现过程和结果解读看下文:

↓↓↓

SPSS二项logistic回归分析案例实践,做个预测模型

直接用glm()函数拟合:

   
   
   
xuyue.fit <- glm(续约~成本+营业收入+注册时长,data=xuyue,family=binomial(link = logit)) summary(xuyue.fit)


成本、收入、时长对是否续约都有显著影响(P<0.05)。

依据上面回归系数的结果,写出logistic回归的方程式:

Logit(P)=Ln(P/1-P)=-2.287+0.099*时长+0.014*收入-0.184*成本

这个模型拟合优度如何呢?咱们用Hosmer-Lemeshow拟合优度检验来看看。

   
   
   
xuyue.fit.hl <- hoslem.test(xuyue.fit$y,fitted(xuyue.fit),g=10)


HL检验发现,模型拟合良好(P=0.651>0.05)。

logistic回归具体应用时,用风险的比数比即OR值相对于回归系数要更容易解读,所以接下来咱们需要计算并输出三个自变量的OR值。

   
   
   
exp(coef(xuyue.fit))


上表中的数据即截距和各自变量的OR值。营业收入每增加一个单位,则商户继续续约的可能性增加1.4%,高注册时长的续约可能性是低注册时长的1.1倍,注册时长和营业收入均是继续续约的利好因子。相反地,我们发现成本是影响是否继续续约的不利因素。(基于OR值数据结果)。

案例来源:
狄松等著《谁说菜鸟不会数据分析SPSS篇》

本文完
文/图=数据小兵

◢ 为你推荐以下文章 ◣

常见logistic回归模型有哪几种?
用SPSS做有序多分类logistic回归分析
SPSS统计案例多项logistic回归分析
logistic回归分析如何进行多重共线性检验?
logistic回归方法的选择
如何选择有序多分类logistic回归连接函数?



数据小兵坚持写博客已经13年
坚持写微信公号文章7年
坚持更新SPSS视频课程3年
坚持一对一答疑讨论3年
绝对超值:一对一答疑

欢迎加入SPSS视频课程
竭诚服务


◢点【 阅读原文加入课程

本文分享自微信公众号 - 小兵学R语言(r-statistics)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
打赏
0
0 收藏
分享
加载中
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部