文档章节

hadoop_项目分析与开发流程笔记

开源小菜鸟2333
 开源小菜鸟2333
发布于 2017/09/01 12:40
字数 776
阅读 59
收藏 2

当前业界对大数据应用开发的场景要求:

  • 日志分析系统
  • 商品推荐系统
  • 用户行为分析系统
  • 等等

案例1:Hadoop项目实战---黑马论坛日志分析 - CSDN博客

项目开发步骤

1.使用flume把日志数据导入到hdfs中
2.对数据进行清洗、清洗后的数据易于我们使用
3.明细日志使用hbase存储,能够利用ip、时间查询
4.使用hive进行数据的多维分析
5.把hive分析结果使用sqoop导出到mysql中
6.提供视图工具供用户使用


案例2:海量Web日志分析 用Hadoop提取KPI统计指标 | 粉丝日志

日志KPI系统架构

来自 http://blog.fens.me/hadoop-mapreduce-log-kpi/

上图中,左边是Application业务系统,右边是Hadoop的HDFS, MapReduce。

1、日志是由业务系统产生的,我们可以设置web服务器每天产生一个新的目录,目录下面会产生多个日志文件,每个日志文件64M。
2、设置系统定时器CRON,夜间在0点后,向HDFS导入昨天的日志文件。 完成导入后,设置系统定时器,启动MapReduce程序,提取并计算统计指标。
3、完成计算后,设置系统定时器,从HDFS导出统计指标数据到数据库,方便以后的即使查询。

来自 http://blog.fens.me/hadoop-mapreduce-log-kpi/

上面这幅图,我们可以看得更清楚,数据是如何流动的。蓝色背景的部分是在Hadoop中的,接下来我们的任务就是完成MapReduce的程序实现。


案例3:Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍 - Edison Chou - 博客园

1、需要用到的技术:

  • Linux Shell编程
  • HDFS、MapReduce
  • HBase、Hive、Sqoop框架

2、上传日志文件至HDFS

把日志数据上传到HDFS中进行处理,可以分为以下几种情况:

  • 如果是日志服务器数据较小、压力较小,可以直接使用shell命令把数据上传到HDFS中;
  • 如果是日志服务器数据较大、压力较大,使用NFS在另一台服务器上上传数据;
  • 如果日志服务器非常多、数据量大,使用flume进行数据处理;

3、数据清洗

使用MapReduce对HDFS中的原始数据进行清洗,以便后续进行统计分析;

4、统计分析

使用Hive对清洗后的数据进行统计分析;

5、分析结果导入MySQL

使用Sqoop把Hive产生的统计结果导出到mysql中;

6、提供视图工具

提供视图工具供用户使用,指标查询mysql、明细则查询Hbase;

来自http://www.cnblogs.com/edisonchou/p/4449082.html

案例4:Hadoop项目实战-用户行为分析之编码实践 - 哥不是小萝莉 - 博客园


案例5:[数据采集之Web端导入日志文件到Hadoop HDFS - 风起于青萍之末 - CSDN博客

© 著作权归作者所有

共有 人打赏支持
开源小菜鸟2333
粉丝 10
博文 34
码字总数 26366
作品 0
杭州
大数据平台网站日志分析系统

1:大数据平台网站日志分析系统,项目技术架构图: 2:大数据平台网站日志分析系统,流程图解析,整体流程如下:   ETL即hive查询的sql;   但是,由于本案例的前提是处理海量数据,因而,...

别叫小伙
2017/12/09
0
0
2016年下半年计划

系统架构设计师考试8月底报名,2016-11-12考试 待学习:1、Redis2、mongodb3、设计模式4、Spring session5、Spring security6、webservice7、lucene8、hadoop9、ejb10、jms11、rmi12、jta13...

鹏城二少
2016/05/21
161
0
6个用于大数据分析处理的最好工具

在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。 大数据...

勿忘初心321
2016/10/14
35
0
大数据经典学习路线(及供参考)之 一

1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此...

柯西带你学编程
05/22
0
0
带掌握技能

Scrapy爬虫框架、Tornado框架 socket编程 appscan OpenCL Hadoop RabbitMQ zmq bt5,sqlmap,zap,burpsuite,WVS9.0,nmap 反编译原理,熟悉dalvik、smali 两年以上云开发(OpenStack)相关...

Jr小王子
2015/12/17
31
0

没有更多内容

加载失败,请刷新页面

加载更多

Mac OS X下Maven的安装与配置

Mac OS X 安装Maven: 下载 Maven, 并解压到某个目录。例如/Users/robbie/apache-maven-3.3.3 打开Terminal,输入以下命令,设置Maven classpath $ vi ~/.bash_profile 添加下列两行代码,之后...

TonyStarkSir
今天
3
0
关于编程,你的练习是不是有效的?

最近由于工作及Solution项目的影响,我在重新学习DDD和领域建模的一些知识。然后,我突然就想到了这个问题,以及我是怎么做的? 对于我来说,提升技能的项目会有四种: 纯兴趣驱动的项目。即...

问题终结者
今天
3
0
打开eclipse出现an error has occurred see the log file

解决方法: 1,打开eclipse安装目录下的eclipse.ini文件; 2,打开的文本文件最后添加一行 --add-modules=ALL-SYSTEM 3,保存重新打开Eclipse。...

任梁荣
昨天
4
0
搞定Northwind示例数据库,无论哪个版本的SQLServer都受用

Northwind数据库 从这里可以找到突破口: http://social.msdn.microsoft.com/Forums/zh-CN/Vsexpressvb/thread/8490a1c6-9018-40c9-aafb-df9f79d29cde 下面是MSDN: http://msdn2.microsoft......

QQZZFT
昨天
1
0
mysql主从同步,安装配置操作

准备 两台mysql服务,我这里准备了如下: 主库:192.168.176.128 从库:192.168.176.131 如何在Linux上安装mysql服务,请看https://blog.csdn.net/qq_18860653/article/details/80250499 操作...

小致dad
昨天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部