文档章节

【大数据学习】数据化运营并不难?关键是这些技术你get了么?!

_夜枫
 _夜枫
发布于 2017/04/06 21:54
字数 2534
阅读 33
收藏 0

1月15日在北京举行了首次阿里云大数据合作伙伴深度培训,我司获邀参加,我和两名研发的同学又一次来到了阿里巴巴望京园区。

2a9b92e211b09408f2691703a9bf66e56bbc9fa6

> 培训的第一部分内容、数加的介绍及应用

除了介绍性内容之外,还是有「干货」的,这个干货就是MaxCompute 的实践。MaxCompute原来叫做ODPS,www.aliyun.com/product/odps,是阿里整个大数据解决方案的基础。

a52d1a099484a7ad6b89dfb453810297d878ea35

上来,给我们讲了什么事数据分析,话说我们是来学习大数据的,干嘛还要研究数据分析?
因为:大数据不是用来吹的!

a33989a0015370e36bc5cc9e43c6b672aef68100

通过数据分析能够获得的好处有很多,但最重要的是获得数据化运营的能力!
为啥要数据化运营?
因为:百度、阿里巴巴、腾讯、苹果、谷歌、亚马逊的运营一个比一个的数据化,一个赛一个的赚钱!

48dffbbd76ca17bd1fd5e723acc193b911392263

又开始讲数据仓库了,说这个干嘛,我们不是要数据化运营吗?没有数据咋运营,数据多了自然就需要仓库放呗!
数据仓库领域已经发展了30多年了,大数据不是在颠覆,而是继承和扩展了相关领域知识。
「大」数据和「小」数据的分析处理流程是基本一致的。

1ae2985552ebd4be825a4816e6fc110383fbcc14

你听说过星型模型么?那你听说过范式模型么?
反正,在数据分析应用场景下是不太关注数据重复的,通常采用星型模型组织数据;在线业务应用场景需要尽量避免数据的重复存储,通常采用范式模型进行数据存储。
星型模型就是通过把数据组织成维度和事实表的一种数据建模方式,数据通过星型模式组织更有利于理解和分析。
这种建模方式数据仓库已经用了三十年,大数据仓库还要继续用。

06de8d604e51449da9a9dfc7aa934f5d4f9c8333

什么是大数据?体量、数量、技术、潮流都不是重点!
这个话是阿里说的哈,不是我说的。

e3c862b4d7305f2799450ca8163fcdd27196fbba

数据大了,传统方式搞不定了,两个办法来解决:减治和分治。

4285f0a3c174fa338d6c92c6c0d015d6bcf7263d

目前有三种主要的大数据计算场景:离线计算、在线计算、流式计算。
MaxCompute 主打离线计算、在线计算有阿里云的ADS(分析型数据库)、流式计算阿里云有正在公测的StreamCompute。
其他的还有图计算和内存计算,阿里自己内部在用,目前还没有通过阿里云对外输出。

7dff85e9a2c85421b3f97992a3e83a7a316724ab

阿里云大数据的使用场景包括:
数据仓库:最大一坨的应用场景,最顶层是数据可视化、下面是BI报表和机器学习、开发用的是大数据开发平台(DateIDE)、基础是计算平台(其中最主要的是MaxCompute)。
数据可视化:数据可视化可以单独拿出来应用,只要你把数据给它,他就能给你变出“花”来。
智能算法:机器翻译、人脸识别、智能语音交互、印刷文字识别、电商图片分析、通用图片分析等算法你都可以通过API调用的方式来使用。
数据应用:通过把算法结合具体的应用场景,阿里推出了推荐引擎、规则引擎、移动定向营销、移动数据分析等数据应用。

2e3b72d1df9f6a72d762930ee39a2c003fddb39c

刚才那个图,换一种方式来表示。
阿里的人总是反复说:他们最关注的还是底层的计算引擎、数据加工和分析工具,上面的应用和解决方案主要还是得依靠合作伙伴来结合具体的应用场景进行创新。

54a355148c1819b661d54f1b825ed95f1d2befea

阿里云大数据的场景解决方案和大数据产品。

f153956b0e91ca3add8d2d9984908437d1668857

第一场景、经典的数据仓库和BI,「第一」是说最经典的、还是最常见、或是最重要的、还是最赚钱的?
这个场景,其实就是基于阿里云大数据平台在做传统BI。
开发人员借助于大数据开发平台(DateIDE)操作大数据计算服务(MaxCompute)完成数据分析任务、最终数据通过BI报表(QuickBI)呈现。

ec4f3c8ce6bce07eeb02bf9727b0da840ef3a4ac

场景二、只是稍微复杂了那么一点儿。
最主要的差别是引入了智能算法,通过对存储在对象存储(OSS)中的海量非结构化数据运用机器学习算法进行处理,形成结构化数据之后再导入大数据计算服务(MaxCompute),结合关系型数据库中导入的数据一起来做分析。
一种可能的场景是:在客服满意度调查分析中,对存储在OSS中的客户服务录音进行语音识别,形成文本,再对文本信息通过语义建模抽取关键信息后结合用户交易历史数据对客户服务的最终效果进行跟踪分析。

ab1bfee055de537e9595bdcc1edf7dfc0c1b919a

场景三、数据平台
除了自己的数据以外,还引入了第三方数据,打造数据生态。
阿里云方面的产品嘛,还是那些东西。

e0e48d5a4aeaff526a53bfc1898bbf94f1b4343a

场景四:经典人工智能。
主要就是MaxCompute结合了阿里云提供的机器学习算法。

c2663bf1874dfd639218dd118f41e22456a15375

应用场景一:个性化推荐
阿里是做电商起家的,对于产品推荐自然是行家。

d6f7f652f9afc153e90b242aa7cd87b4a17604d9

应用场景二:数据可视化
阿里帮你把数据可视化的框架搭起来了,你往里填数据就行了。

7a9d470224cc310183ea1f5a43eb166d695f0b92

应用场景三:智能语音
阿里自己的电话客户服务可以做到100%质检,指望人来听是不现实的,阿里都是用机器听的。
更牛的是,据说今年阿里双11的客户服务绝大部分都是机器做的,不过,你信么?

42846add8903924ed75dec08beafcac6a8622c10

开始讲干货了:MaxCompute
MaxCompute主打批处理,底层模型和Hadoop的MapReduce类似,据说阿里是用C++把Hadoop的MapReduce重新实现了,原来是基于Java的。

d7a377a2585f41384f253d4f5d0aaf78c8293ec7

MaxCompute的主要应用场景:
第一、最基本的就是数据仓库和BI,主要用SQL开发,结合少量UDF(用户自定义函数)。
第二、目前Graph在公测,是基于图计算模型的分布式应用,这个主要用在机器学习领域,当阿里提供的算法不够用时,可以自己DIY。
第三、支持机器学习和数据挖掘,阿里提供了很多成熟算法,这些算法的训练和分析数据主要是存储在MaxCompute上的。

dc3f7c51baad186dea3e2d58650cd53240d90814

图计算的主要用户应该是科学家。
机器学习和大数据统计是统计分析师们的最爱。
重点是MaxCompute SQL,对于计算机工程技术人员来说,日后主打的工具就是它了。
以下是MaxCompute SQL的介绍。

5fe04cec5a2e4d1d112df448eb087846dc09adf7

 

MaxCompute 的主要概念:项目空间、表、分区。

fbf28bfb2e0e4edee447c40a5925b7ebf41349d2

三种用户自定义函数:UDF、UDTF、UDAF。
目前的用户自定义函数都是用Java语言实现的,编译形成JAR包后上传到MaxCompute作为资源使用,可以在SQL中和内置函数一样调用。

1ce30b6a5e327b93e1eaa15bea2c9d64895707c1

UDF的输入和输出是一对一的。

53d48ce0d095314c1c66edbff71ee849fbffa5e4

UDTF的输入和输出是一对多的。

5fd5a95ee06c86ce2fb91d17bc8a58e9aeb9c191

UDAF的输入和输出是多对一的。

62ef428732a31f98aec2d2e9eeb5ab8397dc2991

用户自定义函数的开发和使用过程。

73f5864fff734a6fd849db7af0b1690eb3570088

 

>第二部分、Date IDE

MaxCompute有一个命令行工具,还有一个图形化开发环境叫做Date IDE。

a96b8ed6ebba947faf9efa716fe1f58300df135b

Date IDE的功能不仅是一个开发环境,还包括调度管理和监控运维。
数据化运营是一个长期过程,一旦开始就意外着要进行不断的投入和运维。

a21271c9e3cab061d96814e2f0fc3cddbdd2dbff

开了一个项目空间,看看有啥功能。

5df561085f509e91fadabd56ee60f6c143563427

数据的处理步骤通过节点来组织。

a364df1e0a6e4ec028c743f3e2f7bd9b9afa6e4d

可以对节点设置调度、依赖和监控,如果真的开始了数据化运营,如果哪一天没有数据输出就是一场灾难。

6973eea2d82e7194bc0f3112928bd9c650f81a84

>第三部分、一个案例:海量日志数据分析

把前面介绍的内容整体穿起来,放在一个应用场景下介绍。

25b22d8ac93e5f7452de2d34f14336dd2cafb91e

为啥要分析日志?

7217c22ddb04d1a34d2b8437daa68b93d11ba6ac

案例中用到的产品:MaxCompute、Date IDE、Quick BI。

a80430d01bec1082045b290eb72eeba68a61fb09

整体的流程:这个流程图是在Date IDE中通过拖拽形成的。

2cbb2b85b9994eae3b653b082f3ed3e9f3dc3b79

第一步,数据的采集。
MaxCompute支持各种导入数据的方式。

b81ce93c76f6fbbf2e2ab82dc3b7ff1ce17277f1

第二步,数据的处理分析。
阿里自己通常会把数据分成三层来处理:
ODS层、为了避免影响在线业务的运行,通常不进行处理,先把数据直接导进来放在ODS层。
DW层、使用星型模型重新组织数据,分成维度表行和事实表。
RPT层、具体报表使用的数据,因为要进行在线的查询和访问,而MaxCompute不擅长在线访问,所以通常都会导回到RDS(关系型数据库)或ADS(分析型数据库)存储。

0632b7907f3c53d2bb43c45ac0b9812d210bd640

Quick BI 可以呈现出的效果,Quick BI支持各种数据源,除了支持阿里云提供的数据库服务外,还支持外部用户自建的各种数据库。

f536cd29a84ce7ce2b011ef242c62a07a77e0b09

>第四部分、流计算引擎

阿里StreamCompute还在公测,春节后估计就能上线。

b24a54e8718e802c5ca407ced68f19e3aff6f94c

离线计算(MaxCompute)和流计算(StreamCompute)的区别。
StreamCompute是MaxCompute的补充而不是替代。
流处理不擅长复杂的任务、流处理是事件触发的。

4802a0ae4baf28dd91d8fd5822eebe587e10c442

上面的日志处理案例也可以用流处理实现,需要用到DataHub服务。
DataHub 有些类似有Kafuka,是一个海量数据的订阅和消费服务。

2a0802cfa3303feb1ef1d218c3bc1872037d00aa

DataHub中的数据订阅是基于Topic的。

78b6a50ce43f7c6a22521ca89e64aac0ac33daf9

流数据应用场景,数据大屏。
网站的访问数据是实时变化的,看起来非常炫酷。
阿里双十一的实时大屏就是流数据结合数据大屏(DataV)实现的。

cb1402c85492ef12286cd94fa36e72c4d7735cb6

本文转载自:https://yq.aliyun.com/articles/69079

_夜枫
粉丝 10
博文 506
码字总数 0
作品 0
朝阳
后端工程师
私信 提问
人人都在谈论人工智能,难道大数据已死?

  “大数据已死。”   大数据过时了。”   “我们不再需要大数据,我们现在需要机器学习。”   … …   这是我在2017年时常听到的话语,大数据已死?我并不认同,在我看来,大数据是...

大数据头条
2018/01/26
0
0
走出寒冬下的用户增长困境,大数据能发挥多大作用

资本寒冬的话题说了两年,最近终于进入了极寒,整个市场上不仅机构募资遇阻,创业公司融资艰难,明星公司遭遇着裁员风波,还有一大批中小企业更是面临着种种风险。 而另一个事实是,随着最近...

个推大数据
01/09
0
0
解析 :跻身数据科学领域的五条职业规划道路

翻译:卢苗苗、梁傅淇;校对:吕艳芹;作者:Matthew Mayo 原文链接:http://www.kdnuggets.com/2017/02/5-career-paths-data-science-big-data-explained.html 本文长度为4970字,建议阅读6...

tw6cy6ukydea86z
2018/04/25
0
0
【VMware虚拟化解决方案】构建VMware私有云 实现ITaaS

如果企业的组织已经享受到服务器虚拟化带来的成本节省,请想象一下,如果将虚拟计算扩展到所有应用,甚至进而扩展到存储和网络,那么益处将“无以复加”。当依靠 VMware 以及庞大的 VMware 体...

mabofeng
2014/06/30
0
0
区块链研习 | 企业如何选择适合自己的区块链?

在中国信息通信研究院数据中心联盟发布的《可信区块链认证系列标准》里面,把共识机制分成了两大类: “第一类是概率一致的共识、工程学上最终确认,如:PoW(工作量机制证明);第二类是绝对...

北丐09
2018/04/16
0
0

没有更多内容

加载失败,请刷新页面

加载更多

哪些情况下适合使用云服务器?

我们一直在说云服务器价格适中,具备弹性扩展机制,适合部署中小规模的网站或应用。那么云服务器到底适用于哪些情况呢?如果您需要经常原始计算能力,那么使用独立服务器就能满足需求,因为他...

云漫网络Ruan
今天
5
0
Java 中的 String 有没有长度限制

转载: https://juejin.im/post/5d53653f5188257315539f9a String是Java中很重要的一个数据类型,除了基本数据类型以外,String是被使用的最广泛的了,但是,关于String,其实还是有很多东西...

低至一折起
今天
15
0
OpenStack 简介和几种安装方式总结

OpenStack :是一个由NASA和Rackspace合作研发并发起的,以Apache许可证授权的自由软件和开放源代码项目。项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。OpenSta...

小海bug
昨天
11
0
DDD(五)

1、引言 之前学习了解了DDD中实体这一概念,那么接下来需要了解的就是值对象、唯一标识。值对象,值就是数字1、2、3,字符串“1”,“2”,“3”,值时对象的特征,对象是一个事物的具体描述...

MrYuZixian
昨天
9
0
解决Mac下VSCode打开zsh乱码

1.乱码问题 iTerm2终端使用Zsh,并且配置Zsh主题,该主题主题需要安装字体来支持箭头效果,在iTerm2中设置这个字体,但是VSCode里这个箭头还是显示乱码。 iTerm2展示如下: VSCode展示如下: 2...

HelloDeveloper
昨天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部