文档章节

利用MaxCompute建立数据仓库的超强实战手册

阿里云云栖社区
 阿里云云栖社区
发布于 2017/07/12 10:42
字数 1787
阅读 67
收藏 1

小源科技成立于2011年,是一家专注移动互联网领域的产品研发和运营的创业公司,我们秉承“点滴源泉,无际蓝海”的公司经营理念,坚信融入用户才能发现需求,专注一点才能做到极致,快速前进才能永葆领先,为用户所想才能实现价值。小源科技是智能短信概念的提出者和先行者,也是国内最大的情景短信平台运营商。目前包括三星及国内大部分知名手机厂商均采用了小源科技的信析宝智能短信SDK整体解决方案。公司团队主要成员来自金山、多玩、QUEST等国内外一流IT企业,拥有5-10年的丰富从业经验,擅长产品策划设计,安卓苹果服务端的跨平台开发,互联网运营和营销推广,数据挖掘和分析。

数据来源于SDK,因业务是2015年摸索的主营智能短信SDK;在2016年3月由来自阿里巴巴的某位大神作为部门总监成立数据部门,心中留着对阿里的满满滴爱,毫无保留的直接使用阿里云产品

话说,有些神奇的词比如:愿景,目标,战略,规划,方案,架构,接口,数据模型这些关键字会在所有公司各层次的人员之间;一个事情嘛得上级认可,下属认同,然后开展起来就更容易水到渠成。老板经常会问我你规划怎么做?有什么方案? 数据仓库的建设单单是一门技术,更是一门管理科学;三分技术,七分业务,十二分的管理 然后就有了下面的做事情前的规划:

业务现状:需要对公司所经营的业务以及与其他企业合作的业务有一个总体的梳理认识;给领导一个说话的机会:小林同学,xx是公司核心或者需要重点进行数据支持和分析

数据现状:必须对数据现状有个大致的了解,好评估每日要处理多大的量以及按正常业务正常1-3年的数据处理量达到什么规模。

面临的问题:把数据和技术上的有的坑尽量找出,描述一下数据在技术上的难题;原有的数据是在hdfs上的一个文件,没有保留结构化的中间结果 导致数据使用的难度大大增加;数据结构是json规范 每个业务的json差异比较大有数据组json以及字段之间还有相关规则

一件大事得有规划,有方法论指导;因为领导指名点姓使用阿里云,因此完善自建平台的plan B就一字不提了

常言道做大事要有对的人和对的方法,没有个方法论指导数据平台的建设就是耍流氓

建楼房得有规划设计图好对项目有全局观,数据平台也少不了;因此做逻辑规划

数据逻辑分层:逻辑分层便于数据管理以及针对不用终端用户,体现在表前缀或者数据库的用户/数据库的物理隔离

Ods层:Operational Data Store 带日期或者增加stg层存储接口数据,与业务系统一致的结构和数据格式  数据处理完成释放,初步存放策略:接口数据不作保留拆分成功后清理

DW层: data warehouse ,以数据信息为基于 梳理企业的信息模型 保留细节数据 轻度汇总,累计去重用户保存在此层级 dw层轻度汇总 天数据保存1个月+当前月 累计按周 按月存放(分区为周一,月初1号)

Dm:DataMart 它和需求息息相关多维模型层次,各类报表,对外使用数据  :永久保留

Dim:永久保存

odps中落地实现的最终效果:任务管理通过逻辑分层-》主题-》具体的主题任务(以表名的形态存在)

对数据的流程以及与上下游系统之间的描述,实时数据采集实际实践中采用阿里云的日志服务结合Logtail获取日志文件的最新追加的内容并写入日主服务中,由日志服务间隔半小时投递到ODPS的ods层的数据表

采用odps的数据同步底层实际是datax,将源系统数据按原数据格式导入odps表的当天分区(默认保留7天),便于数据的核对和一致性,然后使用sql任务将ods表整合转存到dw保存全量和清洗空置,保留历史快照等ETL操作

模型规划需要有高度的概念描述公司经营业务过程中参与的主要的实体以及实体之间的关系;便于对公司业务的信息进行完整的梳理来支撑完整的数据仓库建模以及保证跨系统之间的一致性

结合业务需求以及公司业务信息为基础覆盖所有数据和现在阶段关键业绩指标的主题域模型,

规划是那么的重要,数据接入往往是分阶段完成的;经过前面的几个步骤对数据之间的关系有大体的能较清晰的了解依赖的数据源并制定相对应的系统调研计划深入了解

某个系统数据接入的方式(增加量条件或者全量,无备库数据的数据接入的时间)

实现数据的可视化不仅让数据变得通俗易懂,还能更加直接的传递所表达的信息。在生活中,常遇到的数据一般都是具有标识系统的,这种标识系统不仅仅是方向性的,还有文字性的。如街头上的指路标志,不仅让你更加直观的获取信息,还能为了解决实际的需要。

使用BI报表中自带的数据产品一周内建立整个美观强大的经营分析系统,最终效果如下图所示

大部分数据分析师常用的技能是excel的透视图表,因此QuickBI报表的透视图表提供了一个web端的数据分析能力,只需要对数据集进行可视化拖拉操作即可完成数据的OLAP操作

文章链接:http://click.aliyun.com/m/25700/

© 著作权归作者所有

阿里云云栖社区
粉丝 454
博文 1558
码字总数 3823668
作品 0
朝阳
私信 提问
阿里云MaxCompute被Forrester评为全球云端数据仓库领导者

参考消息网3月19日报道 日前,全球权威调研机构佛瑞斯特研究公司(Forrester)发布《2018年一季度云端数据仓库》报告。报告对大数据服务商的主要功能、区域表现、细分市场和典型客户等进行了...

隐林
2018/04/04
0
0
阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171127)

概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方...

隐林
2017/05/05
0
0
发光的二次元——克拉克拉上云实践

克拉克拉(KilaKila)是国内专注二次元、主打年轻用户的娱乐互动内容社区软件。KilaKila 推出互动语音直播、短视频配音、对话小说等功能,满足当下年轻用户个性化、碎片化的文娱需求。随着业...

zhaowei121
01/16
5
0
阿里云MaxCompute技术共享计划 首波技术公开课干货集锦

今夏伊始,阿里云大数据计算服务MaxCompute,为将计算红利惠及更多企业和更多开发者,隆重开启技术共享计划。 为让更多开发者能够高效、便捷、循序渐进的了解大数据、了解MaxCompute以及阿里...

迷你芊宝宝
2018/06/26
6
0
中国唯一、仅次AWS,阿里云MaxCompute进入Forrester大数据服务榜单

日前,全球权威调研机构Forrester发布《2018年一季度云端数据仓库》报告。报告对大数据服务商的主要功能、区域表现、细分市场和典型客户等进行了全面评估,最终AWS、阿里云、Google、微软四大...

隐林
2018/03/19
0
0

没有更多内容

加载失败,请刷新页面

加载更多

代理模式之JDK动态代理 — “JDK Dynamic Proxy“

动态代理的原理是什么? 所谓的动态代理,他是一个代理机制,代理机制可以看作是对调用目标的一个包装,这样我们对目标代码的调用不是直接发生的,而是通过代理完成,通过代理可以有效的让调...

code-ortaerc
今天
5
0
学习记录(day05-标签操作、属性绑定、语句控制、数据绑定、事件绑定、案例用户登录)

[TOC] 1.1.1标签操作v-text&v-html v-text:会把data中绑定的数据值原样输出。 v-html:会把data中值输出,且会自动解析html代码 <!--可以将指定的内容显示到标签体中--><标签 v-text=""></......

庭前云落
今天
8
0
VMware vSphere的两种RDM磁盘

在VMware vSphere vCenter中创建虚拟机时,可以添加一种叫RDM的磁盘。 RDM - Raw Device Mapping,原始设备映射,那么,RDM磁盘是不是就可以称作为“原始设备映射磁盘”呢?这也是一种可以热...

大别阿郎
今天
12
0
【AngularJS学习笔记】02 小杂烩及学习总结

本文转载于:专业的前端网站☞【AngularJS学习笔记】02 小杂烩及学习总结 表格示例 <div ng-app="myApp" ng-controller="customersCtrl"> <table> <tr ng-repeat="x in names | orderBy ......

前端老手
昨天
16
0
Linux 内核的五大创新

在科技行业,创新这个词几乎和革命一样到处泛滥,所以很难将那些夸张的东西与真正令人振奋的东西区分开来。Linux内核被称为创新,但它又被称为现代计算中最大的奇迹,一个微观世界中的庞然大...

阮鹏
昨天
20
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部