文档章节

Hadoop到底是什么? 到底能做什么?

天呀鲁哇
 天呀鲁哇
发布于 2015/03/13 14:20
字数 788
阅读 352
收藏 7

调研Hadoop颇久,就是想知道hadoop是什么?hadoop能做什么?怎么用hadoop?最主要是这三块,至于投入和风险也会随之出来(浓缩了我几十页的调研方案啊!!!)

  1. hadoop是什么?

    Hadoop是一个开源的框架,可编写和运行分不是应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的 处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查 询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。

  2. hadoop能做什么?

    hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行 数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用 pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)

  3. hadoop能为我司做什么?
    零数据基础,零数据平台,一切起点都是0。

  • 日志处理

  • 用户细分特征建模

  • 个性化广告推荐

  • 智能仪器推荐

 

 一切以增加企业的商业价值为核心目的、最终目的

  4.怎么用hadoop?

  • hadoop的应用的在我司还属于研发型项目,拟用日志的分析来走通一次流程,因为此阶段目前来说还不需要数据挖掘的专业人员,在数据分析阶段即可,而系 统有数据库工程师,Mapreduce有java开发工程师,而分析由我本人介入,而可视化暂时可由前端JS实现,本来我的调研方案,针对大数据的解决方 案是hadoop+R的,但是对于R我们是完全不懂,在公司还没有大量投入人员的情况下,只有日志分析目前看来是最容易出成果的,也是可以通过较少人员能 出一定成果的,所以选取了这个方向作为试点。

    首先要进行数据的存储,一是要协调上游的服务厂商,关于日志的抓取,二是hadoop系统的搭建,目前已经在紧张的筹备中了。


本文转载自:http://blog.sina.com.cn/s/blog_687194cd01017lgu.html

上一篇: ThreadLocal
下一篇: Hadoop初识
天呀鲁哇
粉丝 8
博文 98
码字总数 42007
作品 0
长宁
程序员
私信 提问
加载中

评论(3)

天呀鲁哇
天呀鲁哇 博主
呵呵 明白就好了呀!
YanbinQ
YanbinQ
拼音输入法的错,用函数式变成
Smile月光
Smile月光
分布式!=分不是
大话大数据(一)

大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖...

提广乾
2016/11/25
52
0
初学大数据,一定要知道这些

经常有初学者问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。。。。。。。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以...

铁扇公主1
2017/03/22
381
1
两个凡是 -- 大数据都被玩烂了

现在懂hadoop mongodb redis的专家比 能写一个子查询的都多。 大把大把的构架师 在ppt上堆叠一下hadoop, reids...... 就成了大数据 看得眼花缭乱 除了浪费人力, 浪费磁盘, 浪费电,到底产生...

宏哥
2015/11/13
2.1K
10
你都弄不清到底想要什么,还谈什么改变自己的人生?

001 你的纠结和痛苦的根源到底是什么? 举几个简单的场景: 场景1: 领导布置的任务还有4个小时候就要交了,但是一笔没动。 迫于这种时间的压力,你开始焦虑。你纠结做还是不做,进而产生应付...

马上就
2018/04/02
0
0
服务器维护和服务器开发

别怪小弟孤陋寡闻哈,只是有时候觉得有些奇怪,服务器到底是做什么的,服务器到底一般会出现什么问题,服务器开发,又是开发一些什么东西。那个大神能详细说说!谢谢了!

陈诒亮
2014/04/26
266
7

没有更多内容

加载失败,请刷新页面

加载更多

3_数组

3_数组

行者终成事
今天
7
0
经典系统设计面试题解析:如何设计TinyURL(二)

原文链接:https://www.educative.io/courses/grokking-the-system-design-interview/m2ygV4E81AR 编者注:本文以一道经典的系统设计面试题:《如何设计TinyURL》的参考答案和解析为例,帮助...

APEMESH
今天
7
0
使用logstash同步MySQL数据到ES

概述   在生成业务常有将MySQL数据同步到ES的需求,如果需要很高的定制化,往往需要开发同步程序用于处理数据。但没有特殊业务需求,官方提供的logstash就很有优势了。   在使用logstas...

zxiaofan666
今天
10
0
X-MSG-IM-分布式信令跟踪能力

经过一周多的鏖战, X-MSG-IM的分布式信令跟踪能力已基本具备, 特点是: 实时. 只有要RX/TX就会实时产生信令跟踪事件, 先入kafka, 再入influxdb待查. 同时提供实时sub/pub接口. 完备. 可以完整...

dev5
今天
7
0
OpenJDK之CyclicBarrier

OpenJDK8,本人看的是openJDK。以前就看过,只是经常忘记,所以记录下 图1 CyclicBarrier是Doug Lea在JDK1.5中引入的,作用就不详细描述了,主要有如下俩个方法使用: await()方法,如果当前线...

克虏伯
今天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部