文档章节

大数据快速进入

s10241024s
 s10241024s
发布于 2017/05/18 21:36
字数 934
阅读 126
收藏 0

实然想这么多所谓大数据,到底怎么样呢,以我的能力,能多快进入呢?

很久以前有过这样的经历,看一个技术,看一本书,看三个月都还是第一章,可以实然有一天开窍了,拿起书来两三天就搞定了。

这次大数据,也有这么点意思。以前看基础知识,好像明白了,又不知道怎么弄。这会儿看了几本书,大概三四天时间,再上上网找点资料,基本搞明白了。也没那么复杂,其实我们以前就在做这一部分的工作,只不过没有成熟工具,全都是自己弄,也没想过那么通用。比如:用户行为,其实前面埋点什么的都做了,只不过后面是放到了数据库里,每天大概50~100M,如果数据量再大,原来想的就是怎么对结构调整,怎么对数据库调整。以前就有这个概念,数据量足够大之后,都不会用通用的数据库来处理,而是对每一个查询写一个单独的程序算法来提高效率。其实,这不就是现在的大数据体系嘛。只不过再简化开发,友好界面,就变成了这多层的一个生态了。

一方面,除了hadoop之外,其它的衍生工具太多了,以前的概念里,大数据就是hadoop,现在太多之后,有点找不到关系了。看了书,找了资料,主要是为了捊清各部分之间的关系。之所以大数据架构之复杂,并不是概念上复杂,而是技术发展太快,业务形式发展也太快。开始时,只是单纯说数据量大,而后加入了异构问题,lambda架构等问题,使得整个架构变得复杂。如果说几年前,你刚搭好可以处理的架构,这几年的spark,storm什么的,就让你重构。以前你想的是自己开发调度,以etl为核心收集数据,现在全都是kafka,flume什么的对接。其实有点像缓存,从memcached已经向redis和mangodb什么的演进,像消息,从MQ到kafka,但其本质并没有什么变化,只是方便了,系统了,规范了。还能更方便,这是技术发展的方向。

另一方面,业务层面呢,原来只是个统计报表,现在要数据挖掘,要人工智能。但原来的DW还是少不了的部分,都是在这之上进行的业务演进。没有那么神秘,需要知道用什么东西,可以做什么事,可能达到什么效果就行了。

所以,这应该是技术总监的能力。我知道要一个指导运营的指标需要使用大数据分析,其中一部分需要将埋点数据放到系统中,需要用kafka接入以缓存,再放到hdfs中,是离线计算,用spark对其计算,用presto展现,总体需要多少机器,多少什么样的工程师,多长时间可以做出来,为是日后的扩展应该留什么的接口,会花多少钱,这就很不错了。做一个实验,实际部署和对接一下,发现运行起来大致需要3-5天,如果量大的调优是一件比较要求技术的工作。灵活性和可扩展性的考量也比较麻烦。真正生产环境运行应该需要至少1个月,完全正常运行得有3个月以上。

是不是可以了呢?

© 著作权归作者所有

s10241024s
粉丝 5
博文 9
码字总数 2939
作品 0
海淀
技术主管
私信 提问
加载中

评论(0)

PackOne 0.1.b3 开源,云端大数据软件栈快速弹性部署工具

PackOne致力于实现主流大数据软件在云端的快速弹性部署。通过对云API和Apache Ambari API的联合调用,完成Hadoop、Spark、NiFi、PiFlow、Kylin、MangoDB、Neo4J等流行的大数据管理/处理软件在...

ExcellentW
2019/07/08
942
0
【职业生涯】参加大数据培训有用吗?该怎样选择培训机构?

对于学习大数据的同学来说,参加培训肯定是有用的,这毫无疑问。关键在于作用的大小,选择的培训机构,是不是值得你耗费时间和金钱去参加培训。什么情况下,参加培训可以发挥最大的价值呢?我...

王礼Leon
2017/07/06
0
0
快速获取35万年薪,在大数据开发领域并非天方夜谭

放眼整个人才招聘市场,想要获取高薪,更多人会选择进入IT行业成为一个码农,虽然很累但绝对能够获取高薪。而想要在IT行业快速获得35万年薪似乎有点天方夜谭,但在如今的DT时代,作为一名大数...

hainiuxy
2018/07/03
0
0
月薪30-50K的大数据开发工程师们,他们背后是如何学习的

这两天小编去了解了下大数据开发相关职位的薪资,主要有hadoop工程师,数据挖掘工程师、大数据算法工程师等,从平均薪资来看,目前大数据相关岗位的月薪均在2万以上,随着项目经验的增长工资...

董黎明
2018/06/16
51
0
大数据软件栈部署与管理工具 - PackOne

PackOne 致力于实现主流大数据软件在云端的快速弹性部署。通过对云 API 和 Apache Ambari API 的联合调用,完成 Hadoop、Spark、NiFi、PiFlow、Kylin、MangoDB、Neo4J 等流行的大数据管理/处...

ExcellentW
2019/07/08
8K
1

没有更多内容

加载失败,请刷新页面

加载更多

如何添加或更新查询字符串参数?

使用javascript,如何将查询字符串参数添加到url(如果不存在)或如果存在,则更新当前值? 我正在使用jquery进行客户端开发。 #1楼 我已经扩展了该解决方案,并将其与我发现的另一个解决方案...

技术盛宴
35分钟前
49
0
恭喜你,Get到一份 正则表达式 食用指南

先赞后看,养成习惯 前言 正则表达式 正则表达式: 定义一个搜索模式的字符串。 正则表达式可以用于搜索、编辑和操作文本。 正则对文本的分析或修改过程为:首先正则表达式应用的是文本字符串...

鹿老师的Java笔记
35分钟前
40
0
《 Python编程快速上手:让繁琐工作自动化》分享下载

书籍信息 书名:《 Python编程快速上手:让繁琐工作自动化》 原作名:Automate the Boring Stuff with Python: Practical Programming for Total Beginners 作者: Albert Sweigart 豆瓣评分...

开始以后_
38分钟前
63
0
Java--代码执行顺序(静态初始化块,初始化块,构造函数)

先上结论 执行顺序:先执行静态初始化块,然后时初始化块,最后是构造函数 书写格式: 注意事项: 1. 静态初始化块   静态初始化块只在类首次加载时执行一次,同时静态初始化块只能给静态变...

fairy1674
42分钟前
39
0
第八课:《Linux就该这么学》课堂笔记

“工作马马虎虎,只想在兴趣和游戏中寻觅快活,充其量只能获得一时的快感,绝不能尝到从心底涌出的惊喜和快乐,但来自工作的喜悦并不像糖果那样—放进嘴里就甜味十足,而是需要从苦劳与艰辛中...

宣城热点科技
42分钟前
73
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部