文档章节

hadoop_项目分析与开发流程笔记

开源小菜鸟2333
 开源小菜鸟2333
发布于 2017/09/01 12:40
字数 776
阅读 51
收藏 2
点赞 0
评论 0

当前业界对大数据应用开发的场景要求:

  • 日志分析系统
  • 商品推荐系统
  • 用户行为分析系统
  • 等等

案例1:Hadoop项目实战---黑马论坛日志分析 - CSDN博客

项目开发步骤

1.使用flume把日志数据导入到hdfs中
2.对数据进行清洗、清洗后的数据易于我们使用
3.明细日志使用hbase存储,能够利用ip、时间查询
4.使用hive进行数据的多维分析
5.把hive分析结果使用sqoop导出到mysql中
6.提供视图工具供用户使用


案例2:海量Web日志分析 用Hadoop提取KPI统计指标 | 粉丝日志

日志KPI系统架构

来自 http://blog.fens.me/hadoop-mapreduce-log-kpi/

上图中,左边是Application业务系统,右边是Hadoop的HDFS, MapReduce。

1、日志是由业务系统产生的,我们可以设置web服务器每天产生一个新的目录,目录下面会产生多个日志文件,每个日志文件64M。
2、设置系统定时器CRON,夜间在0点后,向HDFS导入昨天的日志文件。 完成导入后,设置系统定时器,启动MapReduce程序,提取并计算统计指标。
3、完成计算后,设置系统定时器,从HDFS导出统计指标数据到数据库,方便以后的即使查询。

来自 http://blog.fens.me/hadoop-mapreduce-log-kpi/

上面这幅图,我们可以看得更清楚,数据是如何流动的。蓝色背景的部分是在Hadoop中的,接下来我们的任务就是完成MapReduce的程序实现。


案例3:Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍 - Edison Chou - 博客园

1、需要用到的技术:

  • Linux Shell编程
  • HDFS、MapReduce
  • HBase、Hive、Sqoop框架

2、上传日志文件至HDFS

把日志数据上传到HDFS中进行处理,可以分为以下几种情况:

  • 如果是日志服务器数据较小、压力较小,可以直接使用shell命令把数据上传到HDFS中;
  • 如果是日志服务器数据较大、压力较大,使用NFS在另一台服务器上上传数据;
  • 如果日志服务器非常多、数据量大,使用flume进行数据处理;

3、数据清洗

使用MapReduce对HDFS中的原始数据进行清洗,以便后续进行统计分析;

4、统计分析

使用Hive对清洗后的数据进行统计分析;

5、分析结果导入MySQL

使用Sqoop把Hive产生的统计结果导出到mysql中;

6、提供视图工具

提供视图工具供用户使用,指标查询mysql、明细则查询Hbase;

来自http://www.cnblogs.com/edisonchou/p/4449082.html

案例4:Hadoop项目实战-用户行为分析之编码实践 - 哥不是小萝莉 - 博客园


案例5:[数据采集之Web端导入日志文件到Hadoop HDFS - 风起于青萍之末 - CSDN博客

© 著作权归作者所有

共有 人打赏支持
开源小菜鸟2333
粉丝 7
博文 34
码字总数 26366
作品 0
杭州
大数据平台网站日志分析系统

1:大数据平台网站日志分析系统,项目技术架构图: 2:大数据平台网站日志分析系统,流程图解析,整体流程如下:   ETL即hive查询的sql;   但是,由于本案例的前提是处理海量数据,因而,...

别叫小伙
2017/12/09
0
0
6个用于大数据分析处理的最好工具

在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。 大数据...

勿忘初心321
2016/10/14
35
0
2016年下半年计划

系统架构设计师考试8月底报名,2016-11-12考试 待学习:1、Redis2、mongodb3、设计模式4、Spring session5、Spring security6、webservice7、lucene8、hadoop9、ejb10、jms11、rmi12、jta13...

鹏城二少
2016/05/21
161
0
大数据经典学习路线(及供参考)之 一

1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此...

柯西带你学编程
05/22
0
0
带掌握技能

Scrapy爬虫框架、Tornado框架 socket编程 appscan OpenCL Hadoop RabbitMQ zmq bt5,sqlmap,zap,burpsuite,WVS9.0,nmap 反编译原理,熟悉dalvik、smali 两年以上云开发(OpenStack)相关...

Jr小王子
2015/12/17
31
0
大数据经典学习路线(及供参考)

转:https://blog.csdn.net/yuexianchang/article/details/52468291 目录(?)[+]

junzixing1985
04/15
0
0
【老男孩教育】2018年最新版大数据开发课程表

老男孩教育大数据开发课程适合所有对大数据开发有兴趣的人员,从JavaSE 到大数据生态圈高端课程的开发。课程内容量很大,有一定的难度和深度,认真学习,,技术会有很大程度的提升。 第一阶段...

老男孩python
01/10
0
0
Apache Apex晋升为顶级项目

  【IT168 资讯】Apache Apex流和批处理大数据分析技术已经发展成了Apache软件基金会的顶级项目。使用其的组织包括第一资本金融公司和通用电气,技术可以帮助开发者利用实时数据更快速创建...

it168网站
2016/05/03
0
0
Hadoop项目实战-用户行为分析之应用概述(三)

1.概述   本课程的视频教程地址:《项目工程准备》   本节给大家分享的主题如下图所示:   下面我开始为大家分享今天的第三节的内容——《项目工程准备》,接下来开始分享今天的内容。...

smartloli
2015/06/11
0
0
面试笔记分享(大数据)

面试笔记分享(大数据) 总结时间:2014-7 总结人: 江中炼 开头须知: 1.其实,我希望大家看了不是看完就算了,也不要谢谢我的总结,我希望的传递这种共享的精神就像,你拿到这个总结以后,...

片刻
2015/11/22
301
2

没有更多内容

加载失败,请刷新页面

加载更多

下一页

自定义OkHttp的UA

背景 上次的问题很明显 由于我们的ua清一色OkHttp导致快速定位到内部应用。 既然如此我们是否考虑可以在UA上做点手脚。 自定义我们的UA呢??? 分析 首先UA在 均为okhttp/3.2.0 大概率是由于...

Mr_Qi
19分钟前
0
0
【scikit-learn】01:使用案例对sklearn库进行简单介绍

sklearn学习笔记:Quick Start 源地址:http://scikit-learn.org/stable/tutorial/basic/tutorial.html # -*-coding:utf-8-*-''' Author:kevinelstri Datetime:2017.2.16'''......

wangxuwei
23分钟前
0
0
Linux Kernel 4.16 系列停止维护,用户应升级至 4.17

知名 Linux 内核维护人员兼开发人员 Greg Kroah-Hartman 近日在发布 4.16.18 版本的同时,宣布这是 4.16 系列的最后一个维护版本,强烈建议用户立即升级至 4.17 系列。 Linux 4.16 于 2018 年...

问题终结者
25分钟前
0
0
Apache配置时.htaccess失效不起作用的原因分析

.htaccess 失效的原因 1. 重写规则有问题,检查自己的重写规则 2.Apache配置问题,配置中没有配置启用 rewrite a2enmod rewrite 3.网站配置文件没有启用配置需要配置 000-default.conf <Dire...

TU-DESGIN
45分钟前
1
0
两个求最大公约数C/C++算法实现

#include<stdio.h> #include<time.h> #include <iostream>using namespace std;//求最大公约数 LCD(Largest Common Division)//短除法 //m=8251, n=6105; int LCD_ShortDiv(int m, ......

失落的艺术
51分钟前
1
0
QueryPerformanceCounter

windows的Sleep函数,睡眠线程指定毫秒数,可以用来做毫秒延时。 对于微秒延时,没有一个现成的函数,但是可以通过 QueryPerformanceFrequency QueryPerformanceCounter 来间接实现。原理就是...

开飞色
今天
1
0
log4j2使用AsyncRoot不显示行号问题处理

<AsyncRoot level="info" includeLocation="true"> <AppenderRef ref="File"/></AsyncRoot><!--1.异步logger,还需要在pom.xml中添加disruptor的依赖。2.includeLocation结合异......

小翔
今天
3
0
安卓手机上 K 歌,声音延迟怎么解决?

这篇文章可以为你提供一个解决录音和播放同步问题的思路,而且解决了声音从手机传输到耳机上有延时的问题。 初识音频 在开始之前,我先简单介绍一下音频相关的基础知识,方便下文理解。 我们...

编辑部的故事
今天
2
0
使用token实现在有效期内APP自动登录功能

使用token实现在有效期内APP自动登录功能 http://sevennight.cc/2016/07/19/auto_login_impl.html

风云海滩
今天
2
0
Spring Boot集成RabbitMQ发送接收JSON

默认情况下RabbitMQ发送的消息是转换为字节码,这里介绍一下如何发送JSON数据。 ObjectMapper 最简单发送JSON数据的方式是把对象使用ObjectMapper等JSON工具类把对象转换为JSON格式,然后发送...

小致dad
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部