文档章节

阿里巴巴大数据实践之数据建模

小虾米DYX
 小虾米DYX
发布于 2017/08/04 14:28
字数 920
阅读 0
收藏 0
点赞 0
评论 0

点击查看全文

 随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。 为什么需要数据建模 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。

随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。

 

为什么需要数据建模

 

如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。

 

数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据结构和它们之间的关系”,其阐述了数据模型的重要性。有了适合业务和基础数据存储环境的模型,那么大数据就能获得以下好处。

 

性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐。

成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。

效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。

质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。

 

因此,毋庸置疑,大数据系统需要数据模型方法来帮助更好地组织和存储数据,以便在性能、成本、效率和质量之间取得最佳平衡。

 

 

 

点击查看全文

 

本文转载自:http://click.aliyun.com/m/27515/

共有 人打赏支持
小虾米DYX
粉丝 0
博文 113
码字总数 0
作品 0
海淀
大数据计算杭州高端峰会—探寻真正的“大数据,云计算”

阿里巴巴大数据计算服务MaxCompute携手阿里云MVP 邀您共赴杭州大数据计算高端峰会,探寻真正的“大数据,云计算” 现在报名>>> 你也有这些需求和疑惑吗? 如果你在杭州,那就来现场倾听、交流...

晋恒
07/10
0
0
当大数据邂逅酷暑,谁的热度更高?— 大数据计算杭州峰会圆满落幕

今夏,什么最热?世界杯。。。 除了世界杯还有什么热?杭州的天气。。。 当杭州酷暑遇上大数据,哪个更热? 先不答,往下看。 众所周知,计算的价值绝不止于计算本身,而是让不会说话的数据发...

晋恒
前天
0
0
我为什么要写:新书《离线和实时大数据开发实战》

新书《离线和实时大数据开发实战》 购买链接(机械工业出版社官方淘宝店铺) 感谢@薛奎 和@空无 大大写推荐书评。 空无和薛奎的书评 大数据技术一直是个领先互联网公司的必备核心技术,阿里巴...

邦中
05/23
0
0
基于阿里云数加MaxCompute的企业大数据仓库架构建设思路

摘要: 数加大数据直播系列课程主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台。 本次分享嘉...

阿里云云栖社区
03/15
0
0
藏经阁计划,阿里打造 AI 落地最强知识引擎

来源 | 公众号:程序猿 如果没有知识引擎,人工智能将会怎样?知识引擎可以把数据加工成信息,信息和现有的知识通过推理能够获得新的知识,从而形成庞大的知识网络,像大脑一样支持各种决策。...

gitchat
04/23
0
0
「产业观察」“数据安全能力成熟度模型”加速落地 催生出全新职业

据估计,我国数据安全市场将达到千亿级规模,显然“数据安全能力成熟度测评师”这一职业前景看好。 《网络安全法》在去年正式实施,其中对数据安全有非常明确的要求。事实上,在此之前,阿里...

华蒙
03/16
0
0
2017杭州云栖大会100位大咖视频+讲义全分享 大数据

摘要: “如果我看得更远一点的话,是因为我站在巨人的肩膀上。”2017杭州云栖大会资料全部整理完毕,首批100位大咖视频+讲义分享给大家。 杭州云栖大会是阿里集团一年一度的全生态科技盛会。...

qq_40954115
2017/11/06
0
0
首次应用于政务机构 阿里“数据安全能力成熟度模型”落地武汉

当前,数据安全是云计算、大数据时代提出的新课题,也是安全领域从业者必须要攻克的难点。数据在为组织创造价值的同时,也面临着严峻的安全风险,数据安全和个人隐私保护事件频发,已经成为全...

华蒙
02/09
0
0
贵阳大数据安全工程研究中心107名DSMM测评师持证上岗

图说:5月26日,在阿里安全举办的“数据安全管理与产业发展论坛”上,中国电子技术标准化研究院信息安全研究中心数据安全部主任胡影对DSMM进行解读 数据的重要性已成全球共识,但数据安全问题...

华蒙
05/28
0
0
【新华网】阿里与重庆9所高校合作 加快大数据人才培养

  重庆有哪些网红景点?火爆的原因是什么?重庆火锅50强又是哪些?各有什么特点……7月15日,重庆日报记者获悉,重庆大学与阿里云、慧科集团合作举办的首期大数据实训营结束。来自重庆大学...

昕华
07/16
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Python爬虫 爬取百合网的女人们和男人们

学Python也有段时间了,目前学到了Python的类。个人感觉Python的类不应称之为类,而应称之为数据类型,只是数据类型而已!只是数据类型而已!只是数据类型而已!重要的事情说三篇。 据书上说...

p柯西
9分钟前
0
0
在Java中,你真的会日期转换吗

1.什么是SimpleDateFormat 在java doc对SimpleDateFormat的解释如下: SimpleDateFormatis a concrete class for formatting and parsing dates in a locale-sensitive manner. It allows fo......

Java小铺
18分钟前
0
0
Linux系统梳理---系统搭建(二):tomcat的安装和使用

上一章讲到JDK的安装使用,这一章主要记录下服务器tomcat的安装以及部署一个项目. 1.下载tomcat,这里下载的是apache-tomcat-8.5.32.tar.gz 2.创建文件夹,便于管理,和JDK一样,在usr目录下创建t...

勤奋的蚂蚁
29分钟前
0
0
ES15-聚合

1.Terms Aggregation 分组聚合 2.Filter Aggregation 过滤聚合

贾峰uk
30分钟前
0
0
【2018.07.19学习笔记】【linux高级知识 20.27-20.30】

20.27 分发系统介绍 20.28 expect脚本远程登录 20.29 expect脚本远程执行命令 20.30 expect脚本传递参数

lgsxp
32分钟前
0
0
10.32/10.33 rsync通过服务同步~10.35 screen工具

通过服务的方式同步要编辑配置文件:[root@linux-xl ~]# vim /etc/rsyncd.confport=873log file=/var/log/rsync.logpid file=/var/run/rsyncd.pidaddress=192.168.43.21[tes...

洗香香
36分钟前
0
0
与女儿谈商业模式 (3):沃尔玛的成功模式

分类:与女儿谈商业模式 | 标签: 经济学 沃尔玛 陈志武 2007-05-10 09:09阅读(11279)评论(30) 与女儿谈商业模式 (3):沃尔玛的成功模式 陈志武 /文 沃尔玛(Wal-Mart)是另一个有意思的财...

祖冲之
42分钟前
0
0
网页加载速度优化方法总结

1、减少请求 最大的性能漏洞就是一个页面需要发起几十个网络请求来获取诸如样式表、脚本或者图片这样的资源,这个在相对低带宽和高延迟的移动设备连接上来说影响更严重。 2、整合资源 对开发...

Jack088
48分钟前
0
0
dubbo学习

https://blog.csdn.net/houshaolin/article/details/76408399

喵五郎
今天
0
0
mybatis-session.selectList源码分析

0.构建工厂:SqlSessionFactory 。 new SqlSessionFactoryBuilder.build(配置的xml文件) 获取sqlSession对象 //指定事务隔离级别 1. sqlMapper.openSession(TransactionIsolationLevel.SER......

writeademo
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部