文档章节

人工智能资料收集一

J_Queue
 J_Queue
发布于 2017/08/31 16:14
字数 2821
阅读 92
收藏 4

钉钉、微博极速扩容黑科技,点击观看阿里云弹性计算年度发布会!>>>

虽然从市场用户调研到互联网电商平台产品设计,再到上线运营推广,覆盖的面很宽,但我仔细对整个互联网电商平台知识体系梳理了一遍,其中,最为关键和难度最高的就是个性化推荐系统、搜索和大数据系统,其实不难看出,个性化推荐系统和搜索底层都是基于大数据,所以最终各条产品线和技术都归集到大数据系统上,后续我会逐一对每个难点进行分析,本篇就针对用户个性化推荐系统设计进行分享。

互联网电商平台个性化智能推荐系统设计难在哪里

通过对多个大型互联网电商平台的跟踪研究,个性化智能推荐系统设计建设由三步构成:第一建立平台用户行为的召回模型,维度基于用户历史行为数据召回、用户偏好召回和用户地域召回来实现,用户历史行为数据召回基于用户历史浏览、点击、购买、评论、分享、收藏、关注等触点,分类推荐在线相关、在线相似、离线相关、离线相似行为;基于用户偏好召回是基于用户归类画像与平台多屏互通融合;基于用户地域召回是基于用户地域的网格化来实现地域行为推荐算法;第二是召回模型匹配算法,利用高斯逻辑回归及多维算法来得出与用户召回行为的匹配商品及广告信息;第三是平台针对匹配模型推荐结果的排序算法,基于用户交互日志通过模型训练特征权重,采用排序算法来实现自动匹配个性化推荐。在系统实现技术架构上,为支撑个性化推荐系统平均至少每周进行算法迭代,采用HbaseSpark及MapReduce等系统架构,在个性化推荐系统优化升级中,与DNN融合的速度越来越快。

个性化智能推荐最终的目标就是让一个普通访问电商平台的用户,在进入平台页面时,系统能够根据用户日常的行为偏好和习惯,用户心理想要购买的商品,在还没有发生点击行为时,系统能自动推荐到用户访问的页面,提升平台用户下单转化率。即使在用户没有访问平台时,企业通过与用户日常浏览互联网行为轨迹的平台进行联盟合作,在联盟平台推送用户希望购买的商品广告和链接,刺激和引导用户点击购买。即使在用户没有打开电脑时,能够通过信息和邮件的方式,根据用户平常的购买频次和周期,在特定的时间推送到用户手机和电脑。

平台前端实现用户千人千面,而后端需要建立复杂的用户全网行为数据采集、存储加工、数据建模和用户画像过程,单纯采集互联网电商平台数据,仅能达到个性化推荐效果的40%左右,如果要提升个性化推荐的效果,就必须覆盖用户全网行为轨迹,甚至用户线下的行为轨迹,这就形成了以互联网电商平台为核心的生态系统,也能说明阿里、腾讯为什么要控股或收购各行业企业的原因。

 

1、用户行为数据采集

首先需要在采集的互联网平台进行埋点,在页面放置“蜘蛛”探针、采集业务系统所有访问和操作日志、从数据库中提取业务数据,采集回来存储在数据仓库,采集服务器组负责将采集到的日志信息生成文件,落地到存储设备;ETL服务器负责将日志文件和结构化数据导入Hadoop分析集群,并将分析结果导出到Oracle数据库;数据解析服务器负责连接hadoop环境,完成数据分析各项计算;Hadoop和Hive提供数据分布式存储和计算的基础框架;调度实现以上数据导入、分析和结果导出的所有任务的统一调度;数据展示服务器负责数据分析结果的多种形式展现。

互联网电商平台个性化智能推荐系统设计难在哪里

目前做大数据平台的公司,大多数采集的数据指标和输出的可视化报表,都存在几个关键问题:

  1. 采集的数据都是以渠道、日期、地区统计,无法定位到具体每个用户;
  2. 计算统计出的数据都是规模数据,针对规模数据进行挖掘分析,无法支持;
  3. 数据无法支撑系统做用户获客、留存、营销推送使用;

所以,要使系统采集的数据指标能够支持平台前端的个性化行为分析,必须围绕用户为主线来进行画像设计,在初期可视化报表成果基础上,将统计出来的不同规模数据,细分定位到每个用户,使每个数据都有一个用户归属。将分散无序的统计数据,在依据用户来衔接起来,在现有产品界面上,每个统计数据都增加一个标签,点击标签,可以展示对应每个用户的行为数据,同时可以链接到其他统计数据页面。由此可以推导出,以用户为主线来建立数据采集指标维度:用户身份信息、用户社会生活信息、用户资产信息、用户行为偏好信息、用户购物偏好、用户价值、用户反馈、用户忠诚度等多个维度,依据建立的采集数据维度,可以细分到数据指标或数据属性项。

① 用户身份信息维度

性别,年龄,星座,居住城市,活跃区域,证件信息,学历,收入,健康等。

② 用户社会生活信息维度

行业,职业,是否有孩子,孩子年龄,车辆,住房性质,通信情况,流量使用情况……

③ 用户行为偏好信息

是否有网购行为,风险敏感度,价格敏感度,品牌敏感度,收益敏感度,产品偏好,渠道偏好……

④ 用户购物偏好信息

品类偏好,产品偏好,购物频次,浏览偏好,营销广告喜好,购物时间偏好,单次购物最高金额……

⑤ 用户反馈信息维度

用户参与的活动,参与的讨论,收藏的产品,购买过的商品,推荐过的产品,评论过的产品……

用户画像标题体系设计

互联网电商平台个性化智能推荐系统设计难在哪里

通过建立的用户行为数据采集指标体系后,将其再细分到数据属性值,进入这个环节,就需要依赖各种建立的数据模型或函数算法,来对平台用户进行特征提取分析,计算出用户对应的画像数据值,这才是用户画像过程中最为关键的环节。举个例子:如果一个用户访问浏览一个电商平台,注册时没有填写性别,平台如何通过用户产生的访问浏览行为,来计算出用户的性别。绝大多数电商平台都是通过用户的浏览商品,为其推荐相同或相关的商品或相关商品类目商品,用户浏览了连衣裙,并不能说明用户就是女性,因此,要能够更加准确的向用户推荐个性化商品,就必须通过数据特征提取,函数算法来计算出用户的性别。

 

互联网电商平台个性化智能推荐系统设计难在哪里

 

2、数据存储加工

用户行为数据采集后,需要存储在数据仓库,对采集的原始数据进行ETL加工处理,首先需要处理掉存储的无效重复数据,对于用户行为没有影响或重复数据,对非结构化数据和半结构化数据进行结构化处理,并对数据进行补缺、替换、数据合并、数据拆分、数据加载和异常处理。(这个环节更多是技术程序处理)

 

3、数据建模及用户特征提取、用户画像

对于加工处理后的用户行为数据,利用开源的机器学习分类器包,调用封装好的各种数据函数,神经网络、支持向量机、贝叶斯等对数据进行聚类、分类和预测,根据第一步设计的用户画像标签体系,对访问平台的用户计算行为特征值,用户特征提取并不是针对所有的标签维度,对于优先关键标签,如果从用户数据库查询不到特征值,就需要调用R函数对其进行计算,最终得出每个标签维度的特征值,依据特征属性值,就可以对用户进行画像处理。

互联网电商平台个性化智能推荐系统设计难在哪里

按照用户属性和行为特征对全部用户进行聚类和精细化的客户群细分,将用户行为相同或相似的用户归类到一个子库,这样就可以将电商平台所有的用户划分为N个不同子库,每个子库用户拥有相同或相似的行为特征,到这一步,电商平台就可以按照不同子库行为对其进行个性化智能推荐。

互联网电商平台个性化智能推荐系统设计难在哪里

目前国内主流电商平台,在进行个性化智能推荐系统升级过程,都在逐步向DNN渗透和扩展,也是未来个性化智能推荐必经之路。在现有用户画像、用户属性打标签、客户和营销规则配置推送、同类型用户特性归集分库模型基础上,未来将逐步扩展机器深度学习功能,通过系统自动搜集分析前端用户实时变化数据,依据建设的机器深度学习函数模型,自动计算匹配用户需求的函数参数和对应规则,推荐系统根据计算出的规则模型,实时自动推送高度匹配的营销活动和内容信息。

互联网电商平台个性化智能推荐系统设计难在哪里

归根结底,无论是做个性化智能推荐还是大数据进行研究探索,最终都是要达到让系统更加智能的准确识别和推送用户心理想要的产品或内容,也就是互联网平台与用户前端交互的效果,使系统具有人类大脑的效果,更加智能、甚至学会思考。

作者简介:刘永平 ,10年以上互联网电商、互联网金融项目实操经验,任职产品总监,产品咨询专家,曾亲自主导参与项目超过15个,10个以上从0到1实操经验。

J_Queue
粉丝 6
博文 56
码字总数 35716
作品 0
杭州
后端工程师
私信 提问
加载中
请先登录后再评论。
AI时代,连相亲都开始用RPA了?

年过35的程序员小袁,最近有点郁闷:七夕刚被朋友撒过狗粮,接着又被家人一波接一波地催婚;上相亲网站找对象,结果找了一堆bug。 被催婚的单身汪,并不是小袁一人。 据民政部统计,目前,中...

UiBot
2019/08/26
13
0
学习资料免费领

引言 最近肝了一个月精心整理收集了网上各种资源。主要包括BAT面试题、学习视频(Java基础、JavaSe、Python、Linux、spring、测试、人工智能AI、数据库、中间件、大数据、数据结构和算法、p...

root429
05/25
0
0
远丰电商 | 解读新零售:人工智能将重新定义购物生活

从2016年年末,到2018年年中,近两年的时间里电商市场内风云涌动,无疑提及最多的就是“新零售”。从马云提出“新零售”概念以来,各界大佬都有自己的原创定义。眼花缭乱的解释说法,最终还是...

yf一只小蜜蜂
2018/06/01
3
0
IPA,开启人机协作新时代

UiBot东京特约观察 第8期 文丨马磊 近年来,由于日本实行「工作方式改革」,各企业为提高业务效率都在推进自己的IT化进程。尤其是使用RPA工具的企业,工时削减效果明显,比较有名的三菱UFJ银...

UiBot
2019/08/28
20
0
在GitHub上读大学:涵盖清华,北大,浙大等大学课程

来自多位GitHub网友在GitHub分享的几组学习课程项目, 学习课程包含清华,北大,浙大,中科大,上海交大, 等中国多所名校的英语,AI高数,人工智能等课程以及一些讲义考题。 如果你想了解这...

osc_yns1cu2w
2019/04/18
2
0

没有更多内容

加载失败,请刷新页面

加载更多

还在用Swagger(丝袜哥)生成接口文档?我推荐你试试它.....

JApiDocs是一个无需额外注解、开箱即用的SpringBoot接口文档生成工具。 编写和维护API文档这个事情,对于后端程序员来说,是一件恼人但又不得不做的事情,我们都不喜欢写文档,但除非项目前后...

路人甲Java
07/09
0
0
智能仓储的独角兽逻辑

智能仓储的主要应用市场在哪里?客户的付费意愿和付费能力如何? 1、仓储设备具备标准化和通用化特点 由于电商和新零售的快速发展,轻工业品零售仓库的需求量大幅增加。而中国又是全球轻工业...

logiter
2019/08/23
0
0
可是小腿哪能扭过大腿

父亲是一个特别勤苦的人,他从不睡懒觉,每天天麻麻亮,或是下地干活,或是在家搞副业,或是拿着铁锨、粪筐,到路边,到村子周围,到牲畜常出入的地方,去拾粪蛋子,为庄稼积攒肥料,父亲不仅...

瑾123
1分钟前
0
0
一个volatile跟面试官扯了半个小时

《安琪拉与面试官二三事》系列文章,本文是此系列第三篇 一个HashMap能跟面试官扯上半个小时 一个synchronized跟面试官扯了半个小时 欢迎关注Wx公众号:【安琪拉的博客】—揭秘Java后端技术,...

osc_6ls9vwji
2分钟前
0
0
内网渗透靶机-VulnStack 2

WEB服务器:windows2008系统 外网网卡IP:192.168.1.152 内网网卡IP:10.10.10.80 域成员:windows server 2003系统 网卡IP:10.10.10.200 域控服务器:windows server 2008系统 网卡IP:192...

dnsil
07/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部