胖子哥大数据之路(一)-数据仓库也需要大数据
胖子哥大数据之路(一)-数据仓库也需要大数据
张子良 发表于4年前
胖子哥大数据之路(一)-数据仓库也需要大数据
  • 发表于 4年前
  • 阅读 3276
  • 收藏 106
  • 点赞 11
  • 评论 11

腾讯云 技术升级10大核心产品年终让利>>>   

摘要: 最近在处理一个商业银行的大数据项目,旨在构建大数据资源池,项目边界确认过程中,针对项目的定位出现了两种不同的观点,对大数据的在传统行业 的应用有了新的启发。观点一、大数据作为操作数据历史库,存储操作数据库数据,提供历史数据长周期,快速检索的历史数据存储和快速查询服务。观点二、大数 据作为数据仓库的的历史库,解决数据仓库历史数据存储的问题,构建一个大容量,高可用的数据存储平台,为全量数据分析和知识挖掘提供服务。作为操作数据库 的历史库,已经完成了项目的实施,但是作为数据仓库的历史库之前的定位一直是取代,基于大数据做数据分析和知识挖掘,现在却找到了一个新的切入点,才发 现,原来二者并不矛盾。

一、楔子

  大数据传统企业实施,其路漫漫,绝不会如昙花一现,探索大数据在传统行业的实施之路,寻找一条适合传统行业的企业大数据实施方法体系,是我执着坚守的信念,大数据是一种信仰,吾将上下而求索。记下项目中的点滴,算是日志,自勉。

二、项目背景

  最近在处理一个商业银行的大数据项目,旨在构建大数据资源池,项目边界确认过程中,针对项目的定位出现了两种不同的观点,对大数据的在传统行业 的应用有了新的启发。观点一、大数据作为操作数据历史库,存储操作数据库数据,提供历史数据长周期,快速检索的历史数据存储和快速查询服务。观点二、大数 据作为数据仓库的的历史库,解决数据仓库历史数据存储的问题,构建一个大容量,高可用的数据存储平台,为全量数据分析和知识挖掘提供服务。作为操作数据库 的历史库,已经完成了项目的实施,但是作为数据仓库的历史库之前的定位一直是取代,基于大数据做数据分析和知识挖掘,现在却找到了一个新的切入点,才发 现,原来二者并不矛盾。

三、数据仓库与操作数据库

  数据仓库的定义并无统一的说法,通常的到人们认可的概念是:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。简单点说数据仓库就是一种语义上的数据存储,它充当决策支持数据模型的物理实现,并存放于企业战略决策相关的重要信息。

  数据仓库不同于操作数据库,操作数据库的主要任务是执行联机事务处理和查询处理,称作联机事务处理(OLTP)系统。数据仓库系统在数据分析和决策支持方面为用户或者机器学习提供服务,即联机分析处理(OLAP)。二者的主要区别在于五个大的方面:

  1)用户系统的面向性:客户与市场;

  2)数据内容:当前与历史;

  3)数据库设计:ER与面向主题

  4)视图:当前与全景

  5)访问模式:原子事务与只读操作

  传统模式下数据仓库服务器通常采用关系型数据库,也就是说从软件实现的角度,数据仓库和操作型数据采用的模式是一样的。这就决定了,数据仓库和操作数据库面临同样的问题:行业垄断带来的成本依赖、数据模型带来的存储瓶颈和运算瓶颈。

数据仓库的三层架构如下图所示:

四、大数据的位置

  数据仓库系统应用大数据技术的模式还在探索,但是目前总结了几个方面的应用。

  1)大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题

  2)构建基于大数据平台的数据模型,致力于低成本的数据挖掘体系:传统BI的瓶颈在于软硬件绑定、商业垄断和处理性能,基于但数据开源体系的算法模型和并行计算能力,构建全量的数据分析和挖掘,最终目标在于取代原有高成本的BI体系,为企业降低负担。

  3) 实时+离线模式的确立,可以充分利用企业已有的IT资源设施,充分利用成熟的BI技术,从而为企业提供更好的服务。

五、遗留问题

  大数据定位为离线的数据仓库,将会出现三级数据存储模型,实时操作库-数据仓库-大数据资源池,目标有定位已经明确,但是具体实施仍要探索,未完待续...


共有 人打赏支持
张子良
粉丝 44
博文 14
码字总数 36118
作品 1
评论 (11)
顽Shi
内容有点少
真正小熊

引用来自“顽Shi”的评论

内容有点少

Gaff

真正小熊

引用来自“顽Shi”的评论

内容有点少

点击此处输入评论
我是龙的传人

引用来自“顽Shi”的评论

内容有点少

+1024
吕秀才

引用来自“我是龙的传人”的评论

引用来自“顽Shi”的评论

内容有点少

+1024

这是(一),欲知后事如何,且听下回分解
loyal
博客园的那个也是你发的?
丑矬穷
貌似很牛X的样子
中山野鬼
博主,大数据和大量数据的区别是什么?哈,当然这种形式上的争论没什么直接意义,不过我是否可以把你上面的项目目标,看作大量数据的处理?无非实时、阶段库,扩展为历史库。
哈,其实我上面这个问题,不能从大数据的内涵描述的角度说清楚,那么你四、1,到四、3的内容都会走偏。
例如:
“1)大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题”
这个只能说是系统形式。如果说不清楚,大数据和大量数据在针对,数据生命周期的划界方法的差异,那么无论怎么去描述“历史数据存储系统”,都可以理解成,将阶段数据(相对实时操作数据)的周期拉大而已。至于实际的解决方案(实时库、数据资源池等等)就更是后面的事情了。
hylent
mark
ericsoul

引用来自“中山野鬼”的评论

博主,大数据和大量数据的区别是什么?哈,当然这种形式上的争论没什么直接意义,不过我是否可以把你上面的项目目标,看作大量数据的处理?无非实时、阶段库,扩展为历史库。
哈,其实我上面这个问题,不能从大数据的内涵描述的角度说清楚,那么你四、1,到四、3的内容都会走偏。
例如:
“1)大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题”
这个只能说是系统形式。如果说不清楚,大数据和大量数据在针对,数据生命周期的划界方法的差异,那么无论怎么去描述“历史数据存储系统”,都可以理解成,将阶段数据(相对实时操作数据)的周期拉大而已。至于实际的解决方案(实时库、数据资源池等等)就更是后面的事情了。

唉,如今都是在存储大数据。大数据挖掘,呵呵那还在忽悠里。
wjfyulong
上自习
×
张子良
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: