文档章节

Hadoop到底是什么? 到底能做什么?

天呀鲁哇
 天呀鲁哇
发布于 2015/03/13 14:20
字数 788
阅读 348
收藏 7

调研Hadoop颇久,就是想知道hadoop是什么?hadoop能做什么?怎么用hadoop?最主要是这三块,至于投入和风险也会随之出来(浓缩了我几十页的调研方案啊!!!)

  1. hadoop是什么?

    Hadoop是一个开源的框架,可编写和运行分不是应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的 处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查 询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。

  2. hadoop能做什么?

    hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行 数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用 pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)

  3. hadoop能为我司做什么?
    零数据基础,零数据平台,一切起点都是0。

  • 日志处理

  • 用户细分特征建模

  • 个性化广告推荐

  • 智能仪器推荐

 

 一切以增加企业的商业价值为核心目的、最终目的

  4.怎么用hadoop?

  • hadoop的应用的在我司还属于研发型项目,拟用日志的分析来走通一次流程,因为此阶段目前来说还不需要数据挖掘的专业人员,在数据分析阶段即可,而系 统有数据库工程师,Mapreduce有java开发工程师,而分析由我本人介入,而可视化暂时可由前端JS实现,本来我的调研方案,针对大数据的解决方 案是hadoop+R的,但是对于R我们是完全不懂,在公司还没有大量投入人员的情况下,只有日志分析目前看来是最容易出成果的,也是可以通过较少人员能 出一定成果的,所以选取了这个方向作为试点。

    首先要进行数据的存储,一是要协调上游的服务厂商,关于日志的抓取,二是hadoop系统的搭建,目前已经在紧张的筹备中了。


本文转载自:http://blog.sina.com.cn/s/blog_687194cd01017lgu.html

上一篇: ThreadLocal
下一篇: Hadoop初识
天呀鲁哇
粉丝 8
博文 98
码字总数 42007
作品 0
长宁
程序员
私信 提问
加载中

评论(3)

天呀鲁哇
天呀鲁哇 博主
呵呵 明白就好了呀!
YanbinQ
YanbinQ
拼音输入法的错,用函数式变成
Smile月光
Smile月光
分布式!=分不是
大话大数据(一)

大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖...

提广乾
2016/11/25
45
0
初学大数据,一定要知道这些

经常有初学者问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。。。。。。。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以...

铁扇公主1
2017/03/22
376
1
两个凡是 -- 大数据都被玩烂了

现在懂hadoop mongodb redis的专家比 能写一个子查询的都多。 大把大把的构架师 在ppt上堆叠一下hadoop, reids...... 就成了大数据 看得眼花缭乱 除了浪费人力, 浪费磁盘, 浪费电,到底产生...

宏哥
2015/11/13
2.1K
10
你都弄不清到底想要什么,还谈什么改变自己的人生?

001 你的纠结和痛苦的根源到底是什么? 举几个简单的场景: 场景1: 领导布置的任务还有4个小时候就要交了,但是一笔没动。 迫于这种时间的压力,你开始焦虑。你纠结做还是不做,进而产生应付...

马上就
2018/04/02
0
0
服务器维护和服务器开发

别怪小弟孤陋寡闻哈,只是有时候觉得有些奇怪,服务器到底是做什么的,服务器到底一般会出现什么问题,服务器开发,又是开发一些什么东西。那个大神能详细说说!谢谢了!

陈诒亮
2014/04/26
264
7

没有更多内容

加载失败,请刷新页面

加载更多

未初始化指针问题

《C和指针》书上说 int *a ... *a = 12 这样写声明一个变量,但未对指针初始化 如果指针是函数的形参,比如 void func(int *a) { (* a) = 12;//这样操作有无问题? } ======================...

天王盖地虎626
8分钟前
4
0
CSS布局

一列布局 <style type="text/css">body{margin:0px;padding:0px;}.main{width:800px;height:300px;background:#ccc;margin:0 auto;}</style> <div class="main"></div> 两列布......

RichardZane
14分钟前
3
0
Python的一些细节 II

1. isinstance() 与 type() 区别 class type(name, bases, dict) name -- 类的名称。 bases -- 基类的元组。 dict -- 字典,类内定义的命名空间变量。 返回值:一个参数,返回对象的类型;三...

Eappo_Geng
19分钟前
1
0
笔试题-武汉珞珈德毅笔试题

1.写出Java语言的基本数据类型。 2.简述cookie和session区别。 1、cookie数据存放在客户的浏览器上,session数据放在服务器上。 2、cookie不是很安全,别人可以分析存放在本地的COOKIE并进行...

QuasimodoALei
30分钟前
3
0
IDEA Maven project: 'xxx/pom.xml' already exists in VFS

Failed to create a Maven project: ‘xxx/pom.xml‘ already exists in VFS idea创建项目后,发现项目有问题,删除后重新创建,提示错误如下。 解决办法 1.通过idea打开任意一个项目 2.File...

国产大熊猫
今天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部