文档章节

转发两篇京东和淘宝的云平台相关的文章,雅文共赏

benney
 benney
发布于 2014/09/11 10:01
字数 2289
阅读 44
收藏 0

. . . . . .
.
.
R 语言数据挖掘应用 @ 京东商城
刘思喆
商业智能和搜索部
数据挖掘组
2013 年 03 月 29 日
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 1 / 18
. . . . . .
目录
. 1 数据挖掘工具选型
. 2 技术架构及支撑领域
. 3 案例
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 2 / 18
. . . . . .
高速成长的京东商城
• 中国最大的网络零售商,增速超过业界平均速度 3 倍以上
• 8000 万注册用户,上万家供应商
• 日均 PV 超过 2 亿,日均 UV 超过 1500 万, 日订单量超过 100 万
Figure: 京东商城在 2012 年继续强劲增长,在中国自营式 B2C 市场中占据 49.0% 的份额,在中
国 B2C 市场中占据 19.6% 的份额。
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 3 / 18
. . . . . .
数据挖掘工具选型
目录
. 1 数据挖掘工具选型
. 2 技术架构及支撑领域
. 3 案例
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 4 / 18
. . . . . .
数据挖掘工具选型
为什么我们选用 R 作为主要的数据挖掘工具
京东商城线上有Ԟ万य़商品同时售Ԧ,ষণ的ы工੭货是不现实的,ڷ须
҉૓于自动੭货系统。৲商品的未来需ࡌ则是自动੭货系统的重中Ф重,如Ѿ
准确的预测࠿件商品未来需ࡌ(销量)是数据挖掘团队的其中一项重要的工
作。
在 2011 年京东商品销量预测项目直接引出了挖掘工具的选型问题:由于团队成员背景
不同,各有偏重,数据挖掘团队选择了 R、SPSS、Java 以及一家国内数据挖掘软件作
为候选工具评估:
R PASW Java AA
准确性 高 高 低 高
扩展性 高 中 高 低
灵活性 高 低 高 低
易用性 高 高 低 中
集成性 高 低 高 低
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 5 / 18
. . . . . .
数据挖掘工具选型
面对大数据的解决方案
Solution 1: Use R in Conjunction with other specialized tools(e.g MapReduce style
tools, Hadoop, Streaming, Hive, Pig, Cascading...)
Solution 2: Packages that enable new functionality for reading and processing very
large data sets. (e.g bigmemory, ff, Enhance function, but no
enhancements to the core language)
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 6 / 18
. . . . . .
数据挖掘工具选型
面对大数据的解决方案
Solution 1: Use R in Conjunction with other specialized tools(e.g MapReduce style
tools, Hadoop, Streaming, Hive, Pig, Cascading...)
Solution 2: Packages that enable new functionality for reading and processing very
large data sets. (e.g bigmemory, ff, Enhance function, but no
enhancements to the core language)
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 6 / 18
. . . . . .
数据挖掘工具选型
主要针对如下领域
除了销量预测系统以外,R 语言还应用在
• 集群数据的调度清洗
• 建模过程中的数据预处理
• 统计分析和建模
• 数据可视化
• 算法的原型实现
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 7 / 18
. . . . . .
技术架构及支撑领域
目录
. 1 数据挖掘工具选型
. 2 技术架构及支撑领域
. 3 案例
典型工作流
涉及技术
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 8 / 18
. . . . . .
技术架构及支撑领域 典型工作流
一般工作流程
. 1 通过 Hive 集群获取目标数据
. 2 在 R 环境下进行数据预处理
. 3 R 环境下分析建模 (Featrue Selection, Benchmark)
. 4 评估 (离线评估和分流量测试)
. 5 线上集成 (R, Hive QL, Java, C++, Python...)
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 9 / 18
. . . . . .
技术架构及支撑领域 典型工作流
数据的流动
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 10 / 18
. . . . . .
技术架构及支撑领域 涉及技术
涉及数据挖掘技术和相关的 R 包
• 数据传递及服务(RHive、RServe、rJava、RJDBC)
• 清洗及预处理(sqldf、stringr、XML)
• 抽样、预测、分类、关联规则、特征选择、稀疏矩阵运算、矩阵分解、社交网络、
分词等
• 高性能计算(rhdfs、rmr2、Rcpp)
• 其他
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 11 / 18
. . . . . .
技术架构及支撑领域 涉及技术
挖掘模型服务对象
• 在线广告优化
• 在线商品推荐
• 搜索词优化
• 邮件营销
• 移动客户端
• 活动及促销推送
• 开放平台的 PoP 商户
• ...
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 12 / 18
. . . . . .
案例
目录
. 1 数据挖掘工具选型
. 2 技术架构及支撑领域
. 3 案例
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 13 / 18
. . . . . .
案例
典型场景
用户 A: 男性、28 岁、北京、累计购买金额 13428 元、没有投诉记录、最近 2
个月购买过 ipad4 MD513CH,购买过图书三体,搜索过莫言、剃须刀、
HDMI 转接线、手机等关键词,关注 Sony KDL-46HX750 3D LED 液晶
电视,促销偏好度高……
用户 B: 女性、33 岁、上海、累计购买金额 3420 元、曾有过投诉记录,记录关
键词为安装慢、退货等,近 2 个月购买过 ONLY 圆领立体剪裁无袖修身
连衣裙 E(黑),蓝月亮亮白增艳自然清香洗衣液 3000g,关注飞利浦
PT720 三刀头电动剃须刀,搜索过雅培、多美滋,促销偏好度低……
用户 C:
京东商城要做红酒专场活动,请问上述哪个用户更可能是目标客户群。
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 14 / 18
. . . . . .
案例
典型场景
用户 A: 男性、28 岁、北京、累计购买金额 13428 元、没有投诉记录、最近 2
个月购买过 ipad4 MD513CH,购买过图书三体,搜索过莫言、剃须刀、
HDMI 转接线、手机等关键词,关注 Sony KDL-46HX750 3D LED 液晶
电视,促销偏好度高……
用户 B: 女性、33 岁、上海、累计购买金额 3420 元、曾有过投诉记录,记录关
键词为安装慢、退货等,近 2 个月购买过 ONLY 圆领立体剪裁无袖修身
连衣裙 E(黑),蓝月亮亮白增艳自然清香洗衣液 3000g,关注飞利浦
PT720 三刀头电动剃须刀,搜索过雅培、多美滋,促销偏好度低……
用户 C:
京东商城要做红酒专场活动,请问上述哪个用户更可能是目标客户群。
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 14 / 18
. . . . . .
案例
模型的线下测试效果
• 涉及用户数:9832608
• 购买概率大于 0.34 用户数:303641
• 未来 5 天实际购买用户数:14290
• 预测命中用户数:10337
对用户: 最小程度地打扰客户,提高客户体验
对企业: 减低营销成本,提高客户忠诚度
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 15 / 18
. . . . . .
案例
模型的线下测试效果
• 涉及用户数:9832608
• 购买概率大于 0.34 用户数:303641
• 未来 5 天实际购买用户数:14290
• 预测命中用户数:10337
对用户: 最小程度地打扰客户,提高客户体验
对企业: 减低营销成本,提高客户忠诚度
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 15 / 18
. . . . . .
案例
紧接着……
筛选的客户我们还需要做以下工作
渠道: 网页直接推荐、邮件推送(提醒)、移动客户端推荐、短信告知、站内
提醒
时间: 工作日、周末、节日、日间、晚间等
方式: 直减、满减、活动、优惠券、捆绑销售等
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 16 / 18
. . . . . .
案例
部分应用案例
• 基于京东评论的新词识别模型
• 商品的价格弹性模型
• 商品性别色彩模型
• 京东商城“不良”商品识别模型
• PoP 商家分群模型
• 京东商城三级类目购买关系模型
• 某品类评论关键词网络模型
• 商品销量预测模型
• 促销活动兴趣度模型
• 类目偏好模型(用于定向营销)
• 潜在用户识别模型(用于定向营销)
• 搜索桥梁词识别
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 17 / 18
. . . . . .
案例
Q & A
• 邮件:liusizhe<at>jd.com
• 博客: http://www.bjt.name
• 微博:@ 刘思喆
.
Jump to first slide
刘思喆 (京东商城) R 语言数据挖掘应用 2013 年 03 月 29 日 18 / 18

本文转载自:http://www.bjt.name/

benney
粉丝 1
博文 2
码字总数 0
作品 0
闵行
架构师
私信 提问
国内一线互联网技术团队帮你进阶,助你成长

原创很累,很辛苦,所以我经常是约稿和挑选很多精品的文章推送给大家。我有时不生产内容,但是我是精品内容和技术文章的搬运工。今天的分享来自于腾讯,阿里,美团等技术团队本月输出的精品文...

非著名程序员
2017/11/30
0
0
电商运营学习

平台内引流。主要是SEO。 1) 优化词。 工具:数据魔方、生意参谋。 由上述工具可以看出搜索出目标商品的来源词,及相应数据。 由此可以构造出商品标题(最大化利用所允许的字符数,一般从二十...

Cheedoong
2016/03/27
13
0
微信公众号发文章能赚钱吗?有哪些形式?

     微信公众号发文章能赚钱,现在纸媒越来越少,但网媒越来越多,所以,文章永远需要,只不过是发表平台不同而已。这只是一个艰难的转型期,只要我们手中的笔不停下来,所有写过的字,...

公众开发运营官网
2017/12/06
0
0
100位软件测试从业者的年终总结(附年终总结大纲)

Hello ,All Tester ,我是IDO老徐 。 时间真快,又一年过去了 。 16年底,老徐写了两篇关于年终总结的文章 。 1. 老徐个人的年终总结 我花了两个小时,写了这份年终总结 。 2. 年终总结的大...

IDO老徐
2017/12/26
0
0
拼多多悄然上线品牌馆,会是下一个“天猫”吗?

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/M7720EIoSi6oA9/article/details/82392687 文 | 大号科技 张东东 编辑 | 默然 最近拼多多上线了“品牌馆”,里...

比特网
2018/09/03
0
0

没有更多内容

加载失败,请刷新页面

加载更多

测试定时

23/58

FalconChen
昨天
43
0
新海软件邮政市场监管综合信息平台

二、系统功能 该平台包括邮政普遍服务管理、快递管理两大系统,涵盖了地图定位、普服信息、快递信息、GIS管理、网格管理、视频监控、数据分析(BI)、系统设置等八大模块,全面反映了区域邮政...

neocean
昨天
177
0
【微记忆】用户隐私政策与条款

微记忆尊重并保护所有注册用户的个人隐私权。为了给您提供更准确、更贴心的服务,微记忆会按照本隐私权政策的规定储存并使用您的个人信息。微记忆承诺将以高度严格的审慎义务对待这些信息。除...

微记忆
昨天
69
0
两周自制脚本语言-第7天 添加函数功能

第7天 添加函数功能 基本的函数定义与调用执行、引入闭包使Stone语言可以将变量赋值为函数,或将函数作为参数传递给其他函数 有些函数将有返回值的归为函数,没有返回值的归为子程序 7.1 扩充...

果汁分你一半
昨天
105
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部