从真实的业务场景出发,聊数据挖掘项目的完整应用流程

原创
2020/11/20 17:41
阅读数 420

从真实的业务场景出发,聊数据挖掘项目的完整应用流程

数据挖掘是科学,也是艺术,或者说一半是科学,一半是艺术。所谓科学,是指数据挖掘的算法、流程和分析技术的应用是科学的、严谨的。所谓艺术,是指在具体的分析过程中,融入了分析师的创新思维、主观的判断和取舍,尤其表现在挖掘思路的推敲和衍生变量的创建等方面。数据挖掘实战中的流程会有一些基本的顺序,按着流程进行挖掘是数据分析严谨性的体现。

1.项目背景和业务分析需求的提出

业务需求是数据挖掘任务的出发点。需求提出方要根据当前的业务背景,定位问题、找到痛点、提出需求及制定目标。值得一提的是,在项目开始之初,分析需求可以是粗略的或者不明确的,可以在接下来与数据分析团队的互相沟通中明确最终的需求。

2.数据分析师参与需求讨

接到业务方的初步分析需求之后,数据分析师针对该潜在的项目与相关运营方一起进行需求讨论。这类讨论的主要目的:一为针对需求收集相关的背景数据和指标,与业务方一起熟悉背景中的相关业务逻辑,并收集业务方对需求的相关建议、看法;二为从数据分析的专业角度评价初步的业务分析需求是否合理、是否可行。

3.制定需求分析框架和分析计划

基于前面对业务的初步了解和需求背景的分析,数据分析师需要制定初步的分析框架和分析计划。

分析计划主要指分析过程中时间节点的安排和相应的分析进度的设置,下表是一个数据挖掘项目在时间与分析进度上的示例。

时间 分析进度
1月5日-1月11日 数据的抽取和摸底阶段
1月12日-1月18日 数据的前期分析阶段
1月19日-1月31日 建模时间和业务方讨论时间
2月1日-2月9日 模型验证阶段,验证通过,提交分析总结和运营方案建议
2月10日-2月23日 运营方案的落地应用实施
2月24日-3月10日 效果评估和总结,优化方案,落地应用并监控效果

分析框架的主要内容包括:

  • 分析需求转化为数据分析项目中目标变量的定义。
  • 分析思路的大致描述。
  • 析样本的数据抽取规则
  • 潜在分析变量(模型输入变量)的大致圈定和罗列。
  • 分析过程中的项目风险思考和主要的应对策略。
  • 项目的落地应用价值分析和展望。

4.抽取样本数据、熟悉数据、清洗数据和摸底

根据前期讨论的分析思路和建模思路,以及初步圈定的分析字段(分析变量)编写代码,从数据仓库中提取分析、建模所需的样本数据;通过对样本数据的熟悉和摸底,找到无效数据、脏数据、错误数据等,并且对样本数据中存在的这些明显的数据质量问题进行清洗、剔除、转换,同时视具体的业务场景和项目需求,决定是否产生衍生变量,以及怎样产生等。

在这里插入图片描述
5.按计划初步搭建挖掘模型

对数据进行初步的摸底和清洗之后,就进入初步搭建数据挖掘模型阶段了。在该阶段,主要包含以下3个主要内容:

  • 进一步筛选模型的输入变量,遵循“少而精”的总原则。
  • 尝试不同的挖掘方法和分析方法,并比较不同的方案的效果、效率和稳定性。
  • 整理经过模型挑选出来的与目标变量的预测最相关的一系列核心输入变量,将其作为与业务方讨论落地应用时的参考与建议。

在这里插入图片描述

6.与业务方讨论模型的初步结论,提出新的思路和模型优化方案

在本阶段,需要整理模型的初步报告、结论,以及对主要预测字段进行提炼,还要通过与业务方沟通和分享,在此基础上讨论出模型的可能优化方向,并对落地应用的方案进行讨论,同时罗列出注意事项。

7.按优化方案重新抽取样本并建模,提炼结论并验证模型

在上述优化方案和新增衍生变量的基础上,重新抽取样本,一方面验证之前的重要猜想;另一方面尝试搭建新的模型提升预测效果。模型建好之后,还不能马上提交给业务方进行落地应用,还必须用最新的实际数据来验证模型的稳定性。

8.完成分析报告和落地应用建议

提交给业务方一份详细完整的项目结论和应用建议,包括:

  • 模型的预测效果与效率,以及在最新的实际数据中验证模型的结果,即模型的稳定性。
  • 通过模型整理出来的可以作为运营参考的重要自变量及相应的特征、规律。
  • 数据分析师根据模型效果和效率数据提出的落地应用的分层建议,以及相应的运营建议。

9.制定具体的落地应用方案和评估方案

划分对照组和执行组,并根据业务方提出的一些抓手对作为执行组的群体进一步细分,设计并执行针对性的运营方案,进行精准营销。

10.业务方实施落地应用方案并跟踪、评估效果

按照上述的运营和监控方案对执行组和对照组进行分层的精细化运营,在一段时间之后,评估预测模型的稳定性和运营的效果。

11.落地应用方案在实际效果评估后,不断修正完善

业务方需要对方案实施效果进行跟踪总结,结合数据分析团队从数据、技术、运营等多个方面分别评估其对实施效果的影响,对整体落地应用方案的多个方面进行必要的调整和优化,及时落地实施。

12.不同运营方案的评估、总结和反馈

新方案落地后,要注意监控新运营方案的执行情况。对比新旧方案的实施效果,对于运营效果良好的方案,要继续坚持,积极宣传;对于运营效果不理想的方案,要定位问题,及时调整,不断优化并跟踪效果。

13.项目应用后的总结与反思

  • 数据分析团队要定期验证模型的稳定性,需要修正的话要根据数据特征修正模型,并与业务方重新讨论新模型的应用和运营方案。
  • 项目带头人和项目成员要对项目成果和工作内容进行总结、评价和反思,总结经验教训,在企业内进行专题分享和讨论。
  • 对于落地应用后效果比较稳定的落地方案,进行适当的调整以提升方案的可复用性和规范性,贯彻到企业的自动化流程中去。

作者:蔚蓝

展开阅读全文
加载中

作者的其它热门文章

打赏
0
0 收藏
分享
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部