文档章节

一些大数据的案例

brian_2017
 brian_2017
发布于 2017/01/17 09:38
字数 1756
阅读 9
收藏 0
案例主要关注三个问题:数据从哪里来?数据如何存储?数据如何计算?


来自《Hadoop权威指南》的案例


1. Last.fm
1.1 背景
    创建于2002年,提供网络电台和网络音乐服务的社交网络。每个月有2500万人使用Last.fm,产生大量数据。现在有了中文版http://cn.last.fm/,界面很不错!
    2006年初,Last.fm开始使用Hadoop,几个月后投入实际应用。Hadoop是Last.fm基础平台的关键组件,有2个Hadoop集群,50台计算机,300个内核,100TB的硬盘空间。在集群上,运行数百种各种日常作业,包括日志文件分析,A/B测试评测,即时处理和图表生成。


1.2 图表生成
    图表生成是Hadoop在Last.fm的第一个应用。


1.3 数据从哪里来
    Last.fm有两种收听信息:用户播放自己的音乐,如pc或者其他设备mp3,这种信息通过Last.fm的客户端或者第三方应用发送到Last.fm,这一类叫scrobble收藏数据;用户收听Last.fm网络电台的节目,以及听节目时候的喜爱,跳过,禁止等操作信息,这一类叫radio listen电台收听数据。


1.4 数据存储
    收听数据被发送到Last.fm,经历验证和转换,形成一系列有空格分隔的文本文件,包含用户id-userid,音乐id-trackid,这首音乐被收藏的次数scrobble,这首音乐在电台中收听的次数radio,被跳过的次数skip。真实数据达到GB级别,有更多属性字段。


1.5 数据处理
    1.5.1 Unique Listeners作业:统计收听某一首歌的不同用户数,也就说说,有多少个用户听过某个歌,如果用户重复收听,只算一次。
    1.5.2 Sum作业:每首歌的收听总数,收藏总数,电台收听总数,被跳过的总数。
    1.5.3 合作作业:每首歌的被多少不同用户收听总数,收听总数,收藏总数,电台收听总数,被跳过的总数。
    1.5.4 这些数据会被作为周排行榜等在Last.fm主站上显示出来。

2. Facebook
2.1 背景
    Facebook社交网络。
    开始时,试用一个小Hadoop集群,很成功。同时开始开发Hive,Hive让工程师能用SQL语言处理Hadoop集群的数据,毕竟很多人更熟悉SQL。后来,Facbook运行了世界第二大Hadoop集群,数据超多2PB,每天加入10TB数据,2400个内核,9TB内存,大部分时间硬件满负荷运行。


2.2 使用情况

    2.2.1 在大规模数据是以天和小时为单位产生概要信息。如用户数,网页浏览次数,网站访问时间增常情况,广告活动效果数据,计算用户喜欢人和应用程序。
    2.2.2 分析历史数据,以设计和改进产品,以及管理。
    2.2.3 文件存档和日志查询。


2.3 广告分析

    2.3.1 cpc-cost perclick点击数计费,cpm-cost per mille每千人成本。
    2.3.2 个性化广告定制:根据个体用户进行不同的内容剪辑。Yahoo!的SmartAds,Facebook的Social Ads,Engagement Ad广告意见/嵌入视频交互。Facebook每天处理1TB数量级广告数据。
    2.3.3 用Hive分析A/B测试的结果。
    2.3.4 Hadoop和Hive分析人气网站,生物信息公司,原油勘探公司,在线广告。
    

3.Nutch搜索引擎
3.1 Nutch框架用户建立可扩展的crawler网络爬虫和搜索引擎。


3.2 架构

    3.2.1 crawlDb网页数据库:跟踪网络crawler抓取的网页和它们的状态。
    3.2.2 fetchlist爬取网页清单:crawler定期刷新web视图信息,下载新的网页。
    3.2.3 page content原始网页数据:从远程网站下载,以原始的未世界的格式在本地存储成字节数组。
    3.2.4 解析的网页数据:Nutch为html, pdf, open office, ms office, rss提供了解析器。
    3.2.5 linkdb链接图数据库:page rank来的。
    3.2.6 lucene全文检索索引:倒排索引,基于搜集到的所有网页元数据和抽取到的纯文本内容建立。


3.3 使用情况

    Nutch使用Hadoop作业处理数据。




4 Rackspace
4.1 背景
    Rackspace hosting为企业提供管理系统。在数百台服务器上为100万用户和几千家公司提供邮件服务。


4.2 使用情况

    日志分析。发送邮件需要使用多个postfix邮件代理服务器,大部分消息穿越多个Postfix服务器,但每个服务器只知道邮件的目的地,为了给消息建立完整的历史信息,需要用Hadoop处理日志记录。


4.3 使用方式

    在数据中心, syslog-ng从source机器传统日志数据到一组负载均衡的collector收集器机器。在收集器上,日志数据被汇集成一个单独的数据流,用gzip格式进行轻量级压缩。
    当压缩的日志流到达本地收集器,数据会被写入Hadoop,这一步用简单的python脚本写入即可。
    Hadoop集群有15个数据节点,每个节点使用普通cpu和3个500G硬盘。


4.4 计算

    每个电子邮件有一个唯一标示符号queue-id。每个电子邮件有一个唯一的message-id,但恶意客户端会重复发送消息,所以message-id会被伪造。
    在Postfix日志,需要用queue-id查找message-id。
    第一步,以queue-id为健,进行map,把日志log的每个分配给对应的queue-id,然后,执行reduce过程,根据日志消息数值判断queue-id的发送过程是否完整。
    第二步,根据message-id对第一步的结果进行分组,以queue-di和message-id同时为键,以它们对应的日志行作为值,在reuce阶段,判断针对某个message-id的所有queue-id是否合理,验证消息是否离开系统。




5. Cascading
5.1 背景
    Cascading是一个开源的Java库,为MapReduce提供抽象层。用Java写Hadoop的MapReduce是有难度的:cascading用简单字段名和数据元组模型代替MapReduce的key-value;cascading引入了比Map和Reduce更抽象的层次,如Function, Fileter, Aggregator和Buffer。


5.2 使用情况

    Cascading以字段名和元组的方式,把多个MapReduce的处理简化成一个管道链接起来的形式处理数据。从例子来看非常简洁,需要的代码很少。


6. 用Pig和Wukong探索十亿数据级别的网络图
6.1 图=节点+连接节点的边。


6.2 Infochimps项目,一个发现,共享,出售数据集的全球性网站。用简单的脚本语言-不超过一页,就可以处理TB级别的图数据。


6.3 在Infochimps,有twitter,faceboobk的数据集;有wiki百科数据集;线虫项目神经愿和突触的联系;高速公路地图等等。


6.4 在网络图分析上可以做出很多很好玩的有趣东东。

© 著作权归作者所有

brian_2017
粉丝 3
博文 61
码字总数 145216
作品 0
私信 提问
DKHadoop人力资源大数据解决方案架构

大数据技术的应用正在潜移默化改变着我们的日常生活习惯和工作方式,很多看起来有点“不可思议”的事情也渐渐被我们“习以为常”。大数据可能在国内的起步较晚,但我们可能却是对大数据应用最...

adnb34g
2018/06/28
0
0
DKHadoop人力资源大数据解决方案架构

大数据技术的应用正在潜移默化改变着我们的日常生活习惯和工作方式,很多看起来有点“不可思议”的事情也渐渐被我们“习以为常”。大数据可能在国内的起步较晚,但我们可能却是对大数据应用最...

adnb34g
2018/06/28
0
0
hadoop项目开发案例方案汇总

大数据Hadoop应用开发技术正可谓如火如荼推进中,以为大数据已经不仅仅是局限在互联网领域,而是已经被上升到了国家战略的高度层面。大数据正在深刻影响和改变我们的日常生活和工作方式。 Ha...

左手的倒影
2018/06/05
45
0
Hadoop二次开发项目案例方案汇总

大数据Hadoop应用开发技术正可谓如火如荼推进中,以为大数据已经不仅仅是局限在互联网领域,而是已经被上升到了国家战略的高度层面。大数据正在深刻影响和改变我们的日常生活和工作方式。 Ha...

adnb34g
2018/06/05
0
0
【云+社区极客说】新一代大数据技术:构建PB级云端数仓实践

在数据大爆炸时代,随着企业的业务数据体量的不断发展,半结构化以及无结构化数据越来越多,传统的数据仓库面临重大挑战。通过以Hadoop, Spark为代表的大数据技术来构建新型数据仓库,已经成...

腾讯云开发者社区
2018/09/30
32
0

没有更多内容

加载失败,请刷新页面

加载更多

JS基础-该如何理解原型、原型链?

JS的原型、原型链一直是比较难理解的内容,不少初学者甚至有一定经验的老鸟都不一定能完全说清楚,更多的"很可能"是一知半解,而这部分内容又是JS的核心内容,想要技术进阶的话肯定不能对这个...

OBKoro1
今天
7
0
高防CDN的出现是为了解决网站的哪些问题?

高防CDN是为了更好的服务网络而出现的,是通过高防DNS来实现的。高防CDN是通过智能化的系统判断来路,再反馈给用户,可以减轻用户使用过程的复杂程度。通过智能DNS解析,能让网站访问者连接到...

云漫网络Ruan
今天
14
0
OSChina 周一乱弹 —— 熟悉的味道,难道这就是恋爱的感觉

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @xiaoshiyue :好久没分享歌了分享张碧晨的单曲《今后我与自己流浪》 《今后我与自己流浪》- 张碧晨 手机党少年们想听歌,请使劲儿戳(这里)...

小小编辑
今天
3K
24
SpringBoot中 集成 redisTemplate 对 Redis 的操作(二)

SpringBoot中 集成 redisTemplate 对 Redis 的操作(二) List 类型的操作 1、 向列表左侧添加数据 Long leftPush = redisTemplate.opsForList().leftPush("name", name); 2、 向列表右......

TcWong
今天
46
0
排序––快速排序(二)

根据排序––快速排序(一)的描述,现准备写一个快速排序的主体框架: 1、首先需要设置一个枢轴元素即setPivot(int i); 2、然后需要与枢轴元素进行比较即int comparePivot(int j); 3、最后...

FAT_mt
昨天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部