文档章节

拓端数据|机器学习助推快时尚精准销售预测

glttom
 glttom
发布于 2017/07/15 12:15
字数 1625
阅读 32
收藏 0

精选30+云产品,助力企业轻松上云!>>>

原文完整版链接 http://mp.weixin.qq.com/s/d2Yj6rwJkpKQgIc2qER9TA

如今DT(Data technology)时代,数据变得越来越重要,其核心应用”预测“也成为互联网行业以及产业变革的重要力量。对于零售行业来说,预测几乎是商业智能(BI)研究的终极问题,单纯从机器学习的角度来说,做到精准预测很容易,但是结合业务提高企业利润却很难。预测精确性是核心痛点。

业务挑战

针对服装这类的时尚产业的客户需求,tecdat(a)参考ZARA,将产品粗略分为: 基本款和时装。对于基本款,每年都没什么大变化,国际流行的影响也不大,那么可以进行长计划生产。对于时装,决定潮流走向的决策权不在某个区域,一个地方的买手们也没有成长到可以准确预判国际流行趋势,所以需要结合不同区域的各种因素,进行预测。对应的,在新货构成中,销量预测策略为:基本款计划生产,时尚款机动调整。

解决方案

任务/目标

根据服装零售业务营销要求,运用多种数据源分析实现精准销量预测。

数据源准备

沙子进来沙子出,金子进来金子出。无数据或数据质量低,会影响模型预测效果。在建立的一个合理的模型之前,对数据要进行收集,搜集除已有销量数据之外的额外信息(比如天气、地点、节假日信息等),再在搜集的数据基础上进行预处理。

有了数据,但是有一部分特征是算法不能直接处理的,还有一部分数据是算法不能直接利用的。

特征转换

把不能处理的特征做一些转换,处理成算法容易处理的干净特征。举例如下:

销售日期。就时间属性本身来说,对模型来说不具有任何意义,需要把日期转变成到年份、月份、日、周伪变量。

产品特征。从产品信息表里面可以得到款式、颜色、质地以及这款产品是否是限量版等。然而并没有这些变量。这就需要我们从产品名字抽取这款产品的上述特征。

以上例举的只是部分特征。

构造

以上说明了如何抽取相关特征,我们大致有如下训练样本(只列举部分特征)。

划分训练集和测试集

考虑到最终模型会预测将来的某时间段的销量,为了更真实的测试模型效果,以时间来切分训练集和测试集。具体做法如下:假设我们有2014-02-01 ~ 2017-06-17的销量相关数据。以2014-02-01 ~ 2016-03-19的销量数据作为训练,2016-03-20~2017-06-17的数据作为测试。

建模

ARIMA,一般应用在股票和电商销量领域

ARIMA模型是指将非平稳时间序列转化为平稳时间序列,然后将结果变量做自回归(AR)和自平移(MA)。

随机森林

用随机的方式建立一个森林,森林由很多决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。

支持向量回归(SVR)

SVR最本质与SVM类似,都有一个margin,只不过SVM的margin是把两种类型分开,而SVR的margin是指里面的数据会不会对回归有帮助。

模型优化

1.上线之前的优化:特征提取,样本抽样,参数调参。

2.上线之后的迭代,根据实际的A/B testing和业务人员的建议改进模型

从上图可以看出,在此案例中,svm和随机森林算法模型的预测误差最小,运用3种方法预测某商品的销量,其可视化图形如下:

可以看出,销量的预测值的趋势已经基本与真实销量趋势保持一致,但是在预测期较长的区间段,其预测值之间的差别较大。

评估效果不能只看销量,要综合考虑,需要参考业务对接、预测精度、模型可解释性和产业链整体能力等因素综合考虑;不能简单作为企业利润增加的唯一标准。我们的经验是,预测结果仅作为参考一个权重值,还需要专家意见,按照一定的权重来计算

展望

除了以上列举的一些方法,tecdat(a)已经在尝试更复杂的销售预测模型,如HMM、深度学习(Long Short-Term Memory网络、卷积神经网络(CNN))等;同时需要考虑到模型的可解释性、可落地性和可扩展性、避免“黑箱”预测;还在尝试采用混合的机器学习模型,比如GLM+SVR,ARIMA + NNET等。

销售预测几乎是商业智能研究的终极问题,即便通过机器学习算法模型能够提高测试集的预测精度,但是对于未来数据集的预测,想做到精准预测以使企业利润最大化,还需要考虑机器学习模型之外的企业本身因素。比如,企业的整体供应链能力等,如何将企业因素加入到机器学习模型之中,是未来预销售预测的一个难点与方向。因此,要想解决销售预测终极问题还有一段路要走。

版权声明:为拓端数据原创文章,未经允许不得转载!

点击阅读原文”下载阅读报告全文。

【拓端数据tecdat.cn】第三方数据服务提供商,提供全面的统计分析与数据挖掘咨询服务,为客户定制个性化的数据解决方案与行业报告等。

glttom
粉丝 0
博文 3
码字总数 4260
作品 0
宝山
私信 提问
加载中
请先登录后再评论。
太平鸟上云 推动中国服饰行业新零售转型

在消费增速下滑的大环境下,转型焦虑几乎已经弥漫了整个服饰行业,国内大型服饰品牌商几乎都在积极尝试转型,从线下到线上,从国内到国外,从品牌自创到收购。从这几年的情况来看,大部分转型...

osc_veyfyz58
04/14
11
0
太平鸟上云 推动中国服饰行业新零售转型

在消费增速下滑的大环境下,转型焦虑几乎已经弥漫了整个服饰行业,国内大型服饰品牌商几乎都在积极尝试转型,从线下到线上,从国内到国外,从品牌自创到收购。从这几年的情况来看,大部分转型...

阿里云云栖号
04/13
0
0
快时尚品牌集体遇寒,太平鸟、李宁则逆势而上,数字化转型功不可没

据报道,在宣布退出中国4个月后,北京时间9月30日,美国快时尚品牌Forever 21宣布,已根据美国破产法第11章申请破产保护,以重组其业务。预计将在全球关闭多达350家商店,其中包括178家美国商...

DataHunter小数
2019/10/16
0
0
2399元起,华为nova7 SE助推国内5G手机走向普惠

4月23日,华为nova7系列手机正式发布。其中,华为nova7 SE凭借亲民的价格,超高颜值,强大的配置成为年轻人的潮流标杆。一经开售便大卖,成为年轻人2000元挡首选5G手机。 一、华为nova7 SE大...

xiongmosy
05/13
0
0
K2 BPM_【解决方案】从“制造”到“智造”,K2推动制造业转型升级_工作流软件

近年来,中国制造业产出占全球总产品比例越来越大,是仅次于美国的全球第二大工业制造国,中国凭借巨大的制造业总量成为名副其实的“世界工厂”。然而个性化消费的兴起正在给制造企业各环节带...

K2_BPM
2019/09/12
19
0

没有更多内容

加载失败,请刷新页面

加载更多

【题解】p6160 [Cnoi2020]向量

原题传送门 序 啊又是勤奋学习的一天...... 这种mo题目能做出来纯靠感觉。 样例分析 样例输入给了组3、4、5的勾股数,而输出正好是三向量加和为0时的答案。 嗯我好像感觉到了什么...... 于是...

osc_4dady4pk
54分钟前
13
0
【题解】p6160 [Cnoi2020]向量

原题传送门 序 啊又是勤奋学习的一天...... 这种mo题目能做出来纯靠感觉。 样例分析 样例输入给了组3、4、5的勾股数,而输出正好是三向量加和为0时的答案。 嗯我好像感觉到了什么...... 于是...

osc_a7a1prn6
56分钟前
13
0
FreeSql (一)入门

FreeSql是一个功能强大的 .NET ORM 功能库,支持 .NetFramework 4.0+、.NetCore 2.1+、Xamarin 等支持 NetStandard 所有运行平台。(QQ群:4336577) 模型 FreeSql 使用模型执行数据访问,模...

osc_smzoc82r
57分钟前
18
0
TCP协议粘包问题详解

TCP协议粘包问题详解 前言   在本章节中,我们将探讨TCP协议基于流式传输的最大一个问题,即粘包问题。本章主要介绍TCP粘包的原理与其三种解决粘包的方案。并且还会介绍为什么UDP协议不会产...

osc_tjnx25e9
59分钟前
29
0
Ubuntu16.04密码正确 进不去桌面系统(已测试恢复正常)

遇到过两次ubuntu输入密码正确,但是进不去系统,输入密码后,跳转到一下界面 之后又返回到登陆界面,一直这样循环输入密码。 Guest用户可以。 解决办法:   1。进入tty下 :ctrl+alt+F1(F...

osc_lfbryx1h
今天
17
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部