文档章节

hadoop_项目分析与开发流程笔记

开源小菜鸟2333
 开源小菜鸟2333
发布于 2017/09/01 12:40
字数 776
阅读 112
收藏 2

#程序员薪资揭榜#你做程序员几年了?月薪多少?发量还在么?>>>

当前业界对大数据应用开发的场景要求:

  • 日志分析系统
  • 商品推荐系统
  • 用户行为分析系统
  • 等等

案例1:Hadoop项目实战---黑马论坛日志分析 - CSDN博客

项目开发步骤

1.使用flume把日志数据导入到hdfs中
2.对数据进行清洗、清洗后的数据易于我们使用
3.明细日志使用hbase存储,能够利用ip、时间查询
4.使用hive进行数据的多维分析
5.把hive分析结果使用sqoop导出到mysql中
6.提供视图工具供用户使用


案例2:海量Web日志分析 用Hadoop提取KPI统计指标 | 粉丝日志

日志KPI系统架构

来自 http://blog.fens.me/hadoop-mapreduce-log-kpi/

上图中,左边是Application业务系统,右边是Hadoop的HDFS, MapReduce。

1、日志是由业务系统产生的,我们可以设置web服务器每天产生一个新的目录,目录下面会产生多个日志文件,每个日志文件64M。
2、设置系统定时器CRON,夜间在0点后,向HDFS导入昨天的日志文件。 完成导入后,设置系统定时器,启动MapReduce程序,提取并计算统计指标。
3、完成计算后,设置系统定时器,从HDFS导出统计指标数据到数据库,方便以后的即使查询。

来自 http://blog.fens.me/hadoop-mapreduce-log-kpi/

上面这幅图,我们可以看得更清楚,数据是如何流动的。蓝色背景的部分是在Hadoop中的,接下来我们的任务就是完成MapReduce的程序实现。


案例3:Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍 - Edison Chou - 博客园

1、需要用到的技术:

  • Linux Shell编程
  • HDFS、MapReduce
  • HBase、Hive、Sqoop框架

2、上传日志文件至HDFS

把日志数据上传到HDFS中进行处理,可以分为以下几种情况:

  • 如果是日志服务器数据较小、压力较小,可以直接使用shell命令把数据上传到HDFS中;
  • 如果是日志服务器数据较大、压力较大,使用NFS在另一台服务器上上传数据;
  • 如果日志服务器非常多、数据量大,使用flume进行数据处理;

3、数据清洗

使用MapReduce对HDFS中的原始数据进行清洗,以便后续进行统计分析;

4、统计分析

使用Hive对清洗后的数据进行统计分析;

5、分析结果导入MySQL

使用Sqoop把Hive产生的统计结果导出到mysql中;

6、提供视图工具

提供视图工具供用户使用,指标查询mysql、明细则查询Hbase;

来自http://www.cnblogs.com/edisonchou/p/4449082.html

案例4:Hadoop项目实战-用户行为分析之编码实践 - 哥不是小萝莉 - 博客园


案例5:[数据采集之Web端导入日志文件到Hadoop HDFS - 风起于青萍之末 - CSDN博客

© 著作权归作者所有

开源小菜鸟2333
粉丝 20
博文 46
码字总数 33430
作品 0
杭州
私信 提问
加载中

评论(0)

大数据平台网站日志分析系统

1:大数据平台网站日志分析系统,项目技术架构图: 2:大数据平台网站日志分析系统,流程图解析,整体流程如下:   ETL即hive查询的sql;   但是,由于本案例的前提是处理海量数据,因而,...

别叫小伙
2017/12/09
0
0
6个用于大数据分析处理的最好工具

在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。 大数据...

勿忘初心321
2016/10/14
178
0
Docker教程来了!三连走起!

狂神说Docker系列连载课程,通俗易懂,欢迎各位狂粉转发关注学习。未经作者授权,禁止转载 狂神说Docker 两个晚上10个小时的直播,40集的Docker教程完毕!已发布! 观前提示:三连!三连!三...

狂神说
05/18
0
0
2016年下半年计划

系统架构设计师考试8月底报名,2016-11-12考试 待学习:1、Redis2、mongodb3、设计模式4、Spring session5、Spring security6、webservice7、lucene8、hadoop9、ejb10、jms11、rmi12、jta13...

鹏城二少
2016/05/21
161
0
深圳大数据实战开发转型—程序员未来的筹码

活动将长期举行,报名后我们会第一时间与您联系(每周六) 活动流程 13:30 签到 14:00 老师分享 16:00 互动交流 16:30 活动结束 (Hadoop) (含项目实战) NoSQL专题(含HBase) Hadoop企业项...

简直是天才
2018/05/14
18
0

没有更多内容

加载失败,请刷新页面

加载更多

【教程】Chrome 浏览器安装Vue插件方法 (十分详细)

博主最近在研究Vue,无奈新手想安装Chrome的Vue插件,整理下安装流程: 1.首先去github下载vue.zip文件插件(还有npm安装方法这里就不介绍了自行百度)下载地址:https://github.com/vuejs/...

osc_0vfknl5u
8分钟前
9
0
ISODATA聚类算法的matlab程序

ISODATA聚类算法的matlab程序 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 参考:Kmeans及ISODATA算法的matlab实现 算法简介:聚类算法:ISODATA算法 数据见:MATLAB实例:P...

osc_ir7zgxy7
10分钟前
9
0
CAD转为图片格式什么方法最好用?CAD转换器上的操作流程分享

CAD转为图片格式什么方法最好用?在日常工作中,许多伙伴会将CAD文件转换为图片格式,因此他们常常需要使用一款软件——迅捷CAD转换器。该软件是专门为实现CAD文件转换而设计的,提供了CAD转为...

小品778
10分钟前
5
0
ISODATA聚类算法的matlab程序

ISODATA聚类算法的matlab程序 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 参考:Kmeans及ISODATA算法的matlab实现 算法简介:聚类算法:ISODATA算法 数据见:MATLAB实例:P...

osc_5cok9i01
12分钟前
7
0
Python之OS模块39个常用函数详解

os,语义操作系统,所以该模块就是操作系统相关的功能了,用于处理文件和目录这些我们日常手动需要做的操作。 比如新建文件夹、获取文件列表、删除某个文件、获取文件大小、重命名文件、获取...

Python圈子
12分钟前
11
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部