文档章节

胖子哥大数据之路(一)-数据仓库也需要大数据

张子良
 张子良
发布于 2014/02/12 17:32
字数 1360
阅读 4K
收藏 109

一、楔子

  大数据传统企业实施,其路漫漫,绝不会如昙花一现,探索大数据在传统行业的实施之路,寻找一条适合传统行业的企业大数据实施方法体系,是我执着坚守的信念,大数据是一种信仰,吾将上下而求索。记下项目中的点滴,算是日志,自勉。

二、项目背景

  最近在处理一个商业银行的大数据项目,旨在构建大数据资源池,项目边界确认过程中,针对项目的定位出现了两种不同的观点,对大数据的在传统行业 的应用有了新的启发。观点一、大数据作为操作数据历史库,存储操作数据库数据,提供历史数据长周期,快速检索的历史数据存储和快速查询服务。观点二、大数 据作为数据仓库的的历史库,解决数据仓库历史数据存储的问题,构建一个大容量,高可用的数据存储平台,为全量数据分析和知识挖掘提供服务。作为操作数据库 的历史库,已经完成了项目的实施,但是作为数据仓库的历史库之前的定位一直是取代,基于大数据做数据分析和知识挖掘,现在却找到了一个新的切入点,才发 现,原来二者并不矛盾。

三、数据仓库与操作数据库

  数据仓库的定义并无统一的说法,通常的到人们认可的概念是:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。简单点说数据仓库就是一种语义上的数据存储,它充当决策支持数据模型的物理实现,并存放于企业战略决策相关的重要信息。

  数据仓库不同于操作数据库,操作数据库的主要任务是执行联机事务处理和查询处理,称作联机事务处理(OLTP)系统。数据仓库系统在数据分析和决策支持方面为用户或者机器学习提供服务,即联机分析处理(OLAP)。二者的主要区别在于五个大的方面:

  1)用户系统的面向性:客户与市场;

  2)数据内容:当前与历史;

  3)数据库设计:ER与面向主题

  4)视图:当前与全景

  5)访问模式:原子事务与只读操作

  传统模式下数据仓库服务器通常采用关系型数据库,也就是说从软件实现的角度,数据仓库和操作型数据采用的模式是一样的。这就决定了,数据仓库和操作数据库面临同样的问题:行业垄断带来的成本依赖、数据模型带来的存储瓶颈和运算瓶颈。

数据仓库的三层架构如下图所示:

四、大数据的位置

  数据仓库系统应用大数据技术的模式还在探索,但是目前总结了几个方面的应用。

  1)大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题

  2)构建基于大数据平台的数据模型,致力于低成本的数据挖掘体系:传统BI的瓶颈在于软硬件绑定、商业垄断和处理性能,基于但数据开源体系的算法模型和并行计算能力,构建全量的数据分析和挖掘,最终目标在于取代原有高成本的BI体系,为企业降低负担。

  3) 实时+离线模式的确立,可以充分利用企业已有的IT资源设施,充分利用成熟的BI技术,从而为企业提供更好的服务。

五、遗留问题

  大数据定位为离线的数据仓库,将会出现三级数据存储模型,实时操作库-数据仓库-大数据资源池,目标有定位已经明确,但是具体实施仍要探索,未完待续...


© 著作权归作者所有

张子良

张子良

粉丝 47
博文 14
码字总数 36118
作品 1
丰台
项目经理
私信 提问
加载中

评论(11)

wjfyulong
wjfyulong
上自习
ericsoul
ericsoul

引用来自“中山野鬼”的评论

博主,大数据和大量数据的区别是什么?哈,当然这种形式上的争论没什么直接意义,不过我是否可以把你上面的项目目标,看作大量数据的处理?无非实时、阶段库,扩展为历史库。
哈,其实我上面这个问题,不能从大数据的内涵描述的角度说清楚,那么你四、1,到四、3的内容都会走偏。
例如:
“1)大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题”
这个只能说是系统形式。如果说不清楚,大数据和大量数据在针对,数据生命周期的划界方法的差异,那么无论怎么去描述“历史数据存储系统”,都可以理解成,将阶段数据(相对实时操作数据)的周期拉大而已。至于实际的解决方案(实时库、数据资源池等等)就更是后面的事情了。

唉,如今都是在存储大数据。大数据挖掘,呵呵那还在忽悠里。
hylent
hylent
mark
中山野鬼
中山野鬼
博主,大数据和大量数据的区别是什么?哈,当然这种形式上的争论没什么直接意义,不过我是否可以把你上面的项目目标,看作大量数据的处理?无非实时、阶段库,扩展为历史库。
哈,其实我上面这个问题,不能从大数据的内涵描述的角度说清楚,那么你四、1,到四、3的内容都会走偏。
例如:
“1)大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题”
这个只能说是系统形式。如果说不清楚,大数据和大量数据在针对,数据生命周期的划界方法的差异,那么无论怎么去描述“历史数据存储系统”,都可以理解成,将阶段数据(相对实时操作数据)的周期拉大而已。至于实际的解决方案(实时库、数据资源池等等)就更是后面的事情了。
丑矬穷
丑矬穷
貌似很牛X的样子
loyal
loyal
博客园的那个也是你发的?
吕秀才
吕秀才

引用来自“我是龙的传人”的评论

引用来自“顽Shi”的评论

内容有点少

+1024

这是(一),欲知后事如何,且听下回分解
我是龙的传人
我是龙的传人

引用来自“顽Shi”的评论

内容有点少

+1024
真正小熊

引用来自“顽Shi”的评论

内容有点少

点击此处输入评论
真正小熊

引用来自“顽Shi”的评论

内容有点少

Gaff

胖子哥的大数据之路(二)- 大数据结构化数据存储应用模式

一、楔子   胖子哥是我网名,叫了很多年的网名,网名的来历与自己的沧桑和身材有关,不知是IT改变了我,显得苍老,还 是我本就苍老,顺应了IT行业的需要。25岁那面,曾被跟我一样高的漂亮美...

张子良
2014/02/14
360
0
胖子哥的大数据之路(三)- 大数据仓库的需求分析该怎么做

一、引言   基于大数据技术构建数据仓库平台,源于大数据技术本身的不成熟和普及度问题,以及辅助工具的缺失,注定了其实施过程与传统数据仓库的差异性,和 更大的实施难度。本文针对大数据...

张子良
2014/02/20
1.3K
0
胖子哥的大数据之路(8)- 数据仓库命名规范

引言:   从对大数据的狂热到理性的回归,项目实施起到了醍醐灌顶的作用,大数据技术只能作为一种IT基础架构(存储+运算),而实际的工程化实施,还是要回归到IT传统技术,最近在整合大数据...

阿尔法胖哥
2014/04/14
0
0
《分布式数据仓库最佳实践》学员答疑实录(2)

一、前言 本文是《*分布式数据仓库最佳实践*》视频课程的学员答疑实录,学员答疑过程中,针对共性问题和具有代表性的问题,分享在此,算是立此存照。课程大纲见:《分布式数据仓库最佳实践-...

Hadoop develop
2019/02/20
0
0
胖子哥的大数据之路(五)- 数据资源-垄断的壁垒

一、事件背景   昨天接触到一个客户,政府背景,行业应用,某部委直属的下属企业,算是垄断行业,依托政府资源,手里面掌握着全国XX行业所有的数据。原以为是 大数据平台的一个营销对象,聊...

张子良
2014/02/23
418
0

没有更多内容

加载失败,请刷新页面

加载更多

guava中EvictingQueue使用与改进

一、简介 因为业务有一些服务器在国外,网络非常不稳定,执行http请求的时候波动很大。所以我们希望在网络变慢的时候通过http代理切换到其他服务器发送http请求。 如果界定变慢呢? 如果,最...

trayvon
30分钟前
16
0
Python类继承对象 - Python class inherits object

问题: Is there any reason for a class declaration to inherit from object ? 类声明从object继承有什么理由吗? I just found some code that does this and I can't find a good reason......

javail
45分钟前
16
0
查看无线网卡是否支持监听模式

查看无线网卡是否支持监听模式 在实施无线渗透测试时,通常需要将无线网卡设置为监听模式,来监听经过其网卡的所有流量。大学霸IT达人对于很多用户,都不知道如何确定自己的无线网卡是否支持...

大学霸
48分钟前
19
0
windows虚拟主机控制面板哪个比较好用?

相对于Linux发行版本的系统,大多人都比较习惯使用windows系统,同时windows虚拟主机对于 ASP.NET,PHP等热门程序也有了广泛的友好支持。因此,很多新手站长比较倾向于使用windows虚拟主机,...

好么好的_920
51分钟前
14
0
如何使用Elasticsearch中提供的RESTFul风格API? 快来快来,加入小案例需求 不要错过哦~~

前言: 本篇会以小案例需求的方式带你学习Elasticsearch中基于RESTFulApi操作。手敲几遍,想不会也难。加油~ 对了,这里使用的是Kibana和head进行的管理,如果没有接触,推荐看下面的博客,写的挺...

漫路h
今天
27
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部