文档章节

hadoop_项目分析与开发流程笔记

开源小菜鸟2333
 开源小菜鸟2333
发布于 2017/09/01 12:40
字数 776
阅读 78
收藏 2

当前业界对大数据应用开发的场景要求:

  • 日志分析系统
  • 商品推荐系统
  • 用户行为分析系统
  • 等等

案例1:Hadoop项目实战---黑马论坛日志分析 - CSDN博客

项目开发步骤

1.使用flume把日志数据导入到hdfs中
2.对数据进行清洗、清洗后的数据易于我们使用
3.明细日志使用hbase存储,能够利用ip、时间查询
4.使用hive进行数据的多维分析
5.把hive分析结果使用sqoop导出到mysql中
6.提供视图工具供用户使用


案例2:海量Web日志分析 用Hadoop提取KPI统计指标 | 粉丝日志

日志KPI系统架构

来自 http://blog.fens.me/hadoop-mapreduce-log-kpi/

上图中,左边是Application业务系统,右边是Hadoop的HDFS, MapReduce。

1、日志是由业务系统产生的,我们可以设置web服务器每天产生一个新的目录,目录下面会产生多个日志文件,每个日志文件64M。
2、设置系统定时器CRON,夜间在0点后,向HDFS导入昨天的日志文件。 完成导入后,设置系统定时器,启动MapReduce程序,提取并计算统计指标。
3、完成计算后,设置系统定时器,从HDFS导出统计指标数据到数据库,方便以后的即使查询。

来自 http://blog.fens.me/hadoop-mapreduce-log-kpi/

上面这幅图,我们可以看得更清楚,数据是如何流动的。蓝色背景的部分是在Hadoop中的,接下来我们的任务就是完成MapReduce的程序实现。


案例3:Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍 - Edison Chou - 博客园

1、需要用到的技术:

  • Linux Shell编程
  • HDFS、MapReduce
  • HBase、Hive、Sqoop框架

2、上传日志文件至HDFS

把日志数据上传到HDFS中进行处理,可以分为以下几种情况:

  • 如果是日志服务器数据较小、压力较小,可以直接使用shell命令把数据上传到HDFS中;
  • 如果是日志服务器数据较大、压力较大,使用NFS在另一台服务器上上传数据;
  • 如果日志服务器非常多、数据量大,使用flume进行数据处理;

3、数据清洗

使用MapReduce对HDFS中的原始数据进行清洗,以便后续进行统计分析;

4、统计分析

使用Hive对清洗后的数据进行统计分析;

5、分析结果导入MySQL

使用Sqoop把Hive产生的统计结果导出到mysql中;

6、提供视图工具

提供视图工具供用户使用,指标查询mysql、明细则查询Hbase;

来自http://www.cnblogs.com/edisonchou/p/4449082.html

案例4:Hadoop项目实战-用户行为分析之编码实践 - 哥不是小萝莉 - 博客园


案例5:[数据采集之Web端导入日志文件到Hadoop HDFS - 风起于青萍之末 - CSDN博客

© 著作权归作者所有

共有 人打赏支持
开源小菜鸟2333
粉丝 11
博文 37
码字总数 28815
作品 0
杭州
私信 提问
大数据平台网站日志分析系统

1:大数据平台网站日志分析系统,项目技术架构图: 2:大数据平台网站日志分析系统,流程图解析,整体流程如下:   ETL即hive查询的sql;   但是,由于本案例的前提是处理海量数据,因而,...

别叫小伙
2017/12/09
0
0
2016年下半年计划

系统架构设计师考试8月底报名,2016-11-12考试 待学习:1、Redis2、mongodb3、设计模式4、Spring session5、Spring security6、webservice7、lucene8、hadoop9、ejb10、jms11、rmi12、jta13...

鹏城二少
2016/05/21
161
0
6个用于大数据分析处理的最好工具

在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。 大数据...

勿忘初心321
2016/10/14
35
0
深圳大数据实战开发转型—程序员未来的筹码

活动将长期举行,报名后我们会第一时间与您联系(每周六) 活动流程 13:30 签到 14:00 老师分享 16:00 互动交流 16:30 活动结束 (Hadoop) (含项目实战) NoSQL专题(含HBase) Hadoop企业项...

简直是天才
2018/05/14
8
0
北京大数据实战开发转型—程序员未来的筹码

活动将长期举行,报名后我们会第一时间与您联系(每周六) 活动流程 13:30 签到 14:00 老师分享 16:00 互动交流 16:30 活动结束 Hadoop环境搭建 HDFS分布式文件系统 (含项目实战) MapReduc...

简直是天才
2018/05/14
8
0

没有更多内容

加载失败,请刷新页面

加载更多

vue 对对象的属性进行修改时,不能渲染页面 vue.$set()

我在vue里的方法里给一个对象添加某个属性时,我console.log出来的是已经更改的object ,但是页面始终没有变化 原因如下: **受现代 JavaScript 的限制 (而且 Object.observe 也已经被废弃),...

Js_Mei
40分钟前
0
0
开始看《Java学习笔记》

虽然书买了很久,但一直没看。这其中也写过一些Java程序,但都是基于IDE的帮助和对C#的理解来写的,感觉不踏实。 林信良的书写得蛮好的,能够帮助打好基础,看得出作者是比较用心的。 第1章概...

max佩恩
昨天
12
0
Redux 三大原则

1.单一数据源 在传统的MVC架构中,我们可以根据需要创建无数个Model,而Model之间可以互相监听、触发事件甚至循环或嵌套触发事件,这些在Redux中都是不被允许的。 因为在Redux的思想里,一个...

wenxingjun
昨天
8
0
跟我学Spring Cloud(Finchley版)-12-微服务容错三板斧

至此,我们已实现服务发现、负载均衡,同时,使用Feign也实现了良好的远程调用——我们的代码是可读、可维护的。理论上,我们现在已经能构建一个不错的分布式应用了,但微服务之间是通过网络...

周立_ITMuch
昨天
4
0
XML

学习目标  能够说出XML的作用  能够编写XML文档声明  能够编写符合语法的XML  能够通过DTD约束编写XML文档  能够通过Schema约束编写XML文档  能够通过Dom4j解析XML文档 第1章 xm...

stars永恒
昨天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部