文档章节

胖子哥大数据之路(一)-数据仓库也需要大数据

张子良
 张子良
发布于 2014/02/12 17:32
字数 1360
阅读 3357
收藏 107

一、楔子

  大数据传统企业实施,其路漫漫,绝不会如昙花一现,探索大数据在传统行业的实施之路,寻找一条适合传统行业的企业大数据实施方法体系,是我执着坚守的信念,大数据是一种信仰,吾将上下而求索。记下项目中的点滴,算是日志,自勉。

二、项目背景

  最近在处理一个商业银行的大数据项目,旨在构建大数据资源池,项目边界确认过程中,针对项目的定位出现了两种不同的观点,对大数据的在传统行业 的应用有了新的启发。观点一、大数据作为操作数据历史库,存储操作数据库数据,提供历史数据长周期,快速检索的历史数据存储和快速查询服务。观点二、大数 据作为数据仓库的的历史库,解决数据仓库历史数据存储的问题,构建一个大容量,高可用的数据存储平台,为全量数据分析和知识挖掘提供服务。作为操作数据库 的历史库,已经完成了项目的实施,但是作为数据仓库的历史库之前的定位一直是取代,基于大数据做数据分析和知识挖掘,现在却找到了一个新的切入点,才发 现,原来二者并不矛盾。

三、数据仓库与操作数据库

  数据仓库的定义并无统一的说法,通常的到人们认可的概念是:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。简单点说数据仓库就是一种语义上的数据存储,它充当决策支持数据模型的物理实现,并存放于企业战略决策相关的重要信息。

  数据仓库不同于操作数据库,操作数据库的主要任务是执行联机事务处理和查询处理,称作联机事务处理(OLTP)系统。数据仓库系统在数据分析和决策支持方面为用户或者机器学习提供服务,即联机分析处理(OLAP)。二者的主要区别在于五个大的方面:

  1)用户系统的面向性:客户与市场;

  2)数据内容:当前与历史;

  3)数据库设计:ER与面向主题

  4)视图:当前与全景

  5)访问模式:原子事务与只读操作

  传统模式下数据仓库服务器通常采用关系型数据库,也就是说从软件实现的角度,数据仓库和操作型数据采用的模式是一样的。这就决定了,数据仓库和操作数据库面临同样的问题:行业垄断带来的成本依赖、数据模型带来的存储瓶颈和运算瓶颈。

数据仓库的三层架构如下图所示:

四、大数据的位置

  数据仓库系统应用大数据技术的模式还在探索,但是目前总结了几个方面的应用。

  1)大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题

  2)构建基于大数据平台的数据模型,致力于低成本的数据挖掘体系:传统BI的瓶颈在于软硬件绑定、商业垄断和处理性能,基于但数据开源体系的算法模型和并行计算能力,构建全量的数据分析和挖掘,最终目标在于取代原有高成本的BI体系,为企业降低负担。

  3) 实时+离线模式的确立,可以充分利用企业已有的IT资源设施,充分利用成熟的BI技术,从而为企业提供更好的服务。

五、遗留问题

  大数据定位为离线的数据仓库,将会出现三级数据存储模型,实时操作库-数据仓库-大数据资源池,目标有定位已经明确,但是具体实施仍要探索,未完待续...


© 著作权归作者所有

共有 人打赏支持
张子良

张子良

粉丝 43
博文 14
码字总数 36118
作品 1
丰台
项目经理
加载中

评论(11)

wjfyulong
wjfyulong
上自习
ericsoul
ericsoul

引用来自“中山野鬼”的评论

博主,大数据和大量数据的区别是什么?哈,当然这种形式上的争论没什么直接意义,不过我是否可以把你上面的项目目标,看作大量数据的处理?无非实时、阶段库,扩展为历史库。
哈,其实我上面这个问题,不能从大数据的内涵描述的角度说清楚,那么你四、1,到四、3的内容都会走偏。
例如:
“1)大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题”
这个只能说是系统形式。如果说不清楚,大数据和大量数据在针对,数据生命周期的划界方法的差异,那么无论怎么去描述“历史数据存储系统”,都可以理解成,将阶段数据(相对实时操作数据)的周期拉大而已。至于实际的解决方案(实时库、数据资源池等等)就更是后面的事情了。

唉,如今都是在存储大数据。大数据挖掘,呵呵那还在忽悠里。
hylent
hylent
mark
中山野鬼
中山野鬼
博主,大数据和大量数据的区别是什么?哈,当然这种形式上的争论没什么直接意义,不过我是否可以把你上面的项目目标,看作大量数据的处理?无非实时、阶段库,扩展为历史库。
哈,其实我上面这个问题,不能从大数据的内涵描述的角度说清楚,那么你四、1,到四、3的内容都会走偏。
例如:
“1)大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题”
这个只能说是系统形式。如果说不清楚,大数据和大量数据在针对,数据生命周期的划界方法的差异,那么无论怎么去描述“历史数据存储系统”,都可以理解成,将阶段数据(相对实时操作数据)的周期拉大而已。至于实际的解决方案(实时库、数据资源池等等)就更是后面的事情了。
丑矬穷
丑矬穷
貌似很牛X的样子
loyal
loyal
博客园的那个也是你发的?
吕秀才
吕秀才

引用来自“我是龙的传人”的评论

引用来自“顽Shi”的评论

内容有点少

+1024

这是(一),欲知后事如何,且听下回分解
我是龙的传人
我是龙的传人

引用来自“顽Shi”的评论

内容有点少

+1024
真正小熊

引用来自“顽Shi”的评论

内容有点少

点击此处输入评论
真正小熊

引用来自“顽Shi”的评论

内容有点少

Gaff

胖子哥的大数据之路(二)- 大数据结构化数据存储应用模式

一、楔子   胖子哥是我网名,叫了很多年的网名,网名的来历与自己的沧桑和身材有关,不知是IT改变了我,显得苍老,还 是我本就苍老,顺应了IT行业的需要。25岁那面,曾被跟我一样高的漂亮美...

张子良
2014/02/14
0
0
胖子哥的大数据之路(三)- 大数据仓库的需求分析该怎么做

一、引言   基于大数据技术构建数据仓库平台,源于大数据技术本身的不成熟和普及度问题,以及辅助工具的缺失,注定了其实施过程与传统数据仓库的差异性,和 更大的实施难度。本文针对大数据...

张子良
2014/02/20
0
0
胖子哥的大数据之路(8)- 数据仓库命名规范

引言:   从对大数据的狂热到理性的回归,项目实施起到了醍醐灌顶的作用,大数据技术只能作为一种IT基础架构(存储+运算),而实际的工程化实施,还是要回归到IT传统技术,最近在整合大数据...

阿尔法胖哥
2014/04/14
0
0
获取大数据计算通关秘籍,拥有全新一代计算引擎免费试用权益

如何将 MaxCompute 快速应用于实际业务场景?如何跑起你的第一个sql?想试用想学习交流怎么办?So easy!!! 已为你准备大数据计算通关秘籍,还有机会拥有全新一代计算引擎免费试用权益。 一、...

晋恒
08/01
0
0
胖子哥的大数据之路(五)- 数据资源-垄断的壁垒

一、事件背景   昨天接触到一个客户,政府背景,行业应用,某部委直属的下属企业,算是垄断行业,依托政府资源,手里面掌握着全国XX行业所有的数据。原以为是 大数据平台的一个营销对象,聊...

张子良
2014/02/23
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Ubuntu18.04 显卡GF-940MX安装NVIDIA-390.77

解决办法: 下面就给大家一个正确的姿势在Ubuntu上安装Nvidia驱动: (a)首先去N卡官网下载自己显卡对应的驱动:www.geforce.cn/drivers (b)下载后好放在英文路径的目录下,怎么简单怎么来...

AI_SKI
今天
0
0
深夜胡思乱想

魔兽世界 最近魔兽世界出了新版本, 周末两天升到了满级,比之前的版本体验好很多,做任务不用抢怪了,不用组队打怪也是共享拾取的。技能简化了很多,哪个亮按哪个。 运维 服务器 产品 之间的...

Firxiao
今天
1
0
MySQL 8 在 Windows 下安装及使用

MySQL 8 带来了全新的体验,比如支持 NoSQL、JSON 等,拥有比 MySQL 5.7 两倍以上的性能提升。本文讲解如何在 Windows 下安装 MySQL 8,以及基本的 MySQL 用法。 下载 下载地址 https://dev....

waylau
今天
0
0
微信第三方平台 access_token is invalid or not latest

微信第三方开发平台code换session_key说的特别容易,但是我一使用就带来无穷无尽的烦恼,搞了一整天也无济于事. 现在记录一下解决问题的过程,方便后来人参考. 我遇到的这个问题搜索了整个网络也...

自由的开源
今天
3
0
openJDK之sun.misc.Unsafe类CAS底层实现

注:这篇文章参考了https://www.cnblogs.com/snowater/p/8303698.html 1.sun.misc.Unsafe中CAS方法 在sun.misc.Unsafe中CAS方法如下: compareAndSwapObject(java.lang.Object arg0, long a......

汉斯-冯-拉特
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部