hadoop_项目分析与开发流程笔记
hadoop_项目分析与开发流程笔记
开源小菜鸟2333 发表于3个月前
hadoop_项目分析与开发流程笔记
  • 发表于 3个月前
  • 阅读 37
  • 收藏 2
  • 点赞 0
  • 评论 0

腾讯云 新注册用户 域名抢购1元起>>>   

摘要: 综合网上各实践案例,结合实际开发流程,记录、比较与总结各自逻辑上与技术上的优缺点

当前业界对大数据应用开发的场景要求:

  • 日志分析系统
  • 商品推荐系统
  • 用户行为分析系统
  • 等等

案例1:Hadoop项目实战---黑马论坛日志分析 - CSDN博客

项目开发步骤

> 1.使用flume把日志数据导入到hdfs中
> 2.对数据进行清洗、清洗后的数据易于我们使用
> 3.明细日志使用hbase存储,能够利用ip、时间查询
> 4.使用hive进行数据的多维分析
> 5.把hive分析结果使用sqoop导出到mysql中
> 6.提供视图工具供用户使用


案例2:海量Web日志分析 用Hadoop提取KPI统计指标 | 粉丝日志

日志KPI系统架构

来自 http://blog.fens.me/hadoop-mapreduce-log-kpi/

上图中,左边是Application业务系统,右边是Hadoop的HDFS, MapReduce。

> 1、日志是由业务系统产生的,我们可以设置web服务器每天产生一个新的目录,目录下面会产生多个日志文件,每个日志文件64M。
> 2、设置系统定时器CRON,夜间在0点后,向HDFS导入昨天的日志文件。 完成导入后,设置系统定时器,启动MapReduce程序,提取并计算统计指标。
> 3、完成计算后,设置系统定时器,从HDFS导出统计指标数据到数据库,方便以后的即使查询。

来自 http://blog.fens.me/hadoop-mapreduce-log-kpi/

上面这幅图,我们可以看得更清楚,数据是如何流动的。蓝色背景的部分是在Hadoop中的,接下来我们的任务就是完成MapReduce的程序实现。


案例3:Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍 - Edison Chou - 博客园

1、需要用到的技术:

  • Linux Shell编程
  • HDFS、MapReduce
  • HBase、Hive、Sqoop框架

2、上传日志文件至HDFS

把日志数据上传到HDFS中进行处理,可以分为以下几种情况:

  • 如果是日志服务器数据较小、压力较小,可以直接使用shell命令把数据上传到HDFS中;
  • 如果是日志服务器数据较大、压力较大,使用NFS在另一台服务器上上传数据;
  • 如果日志服务器非常多、数据量大,使用flume进行数据处理;

3、数据清洗

使用MapReduce对HDFS中的原始数据进行清洗,以便后续进行统计分析;

4、统计分析

使用Hive对清洗后的数据进行统计分析;

5、分析结果导入MySQL

使用Sqoop把Hive产生的统计结果导出到mysql中;

6、提供视图工具

提供视图工具供用户使用,指标查询mysql、明细则查询Hbase;

来自http://www.cnblogs.com/edisonchou/p/4449082.html

案例4:Hadoop项目实战-用户行为分析之编码实践 - 哥不是小萝莉 - 博客园


案例5:[数据采集之Web端导入日志文件到Hadoop HDFS - 风起于青萍之末 - CSDN博客

标签: Hadoop
共有 人打赏支持
粉丝 5
博文 23
码字总数 19924
×
开源小菜鸟2333
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: