文档章节

【大数据干货】轻松处理每天2TB的日志数据,支撑运营团队进行大数据分析挖掘,随时洞察用户个性化需求。

_夜枫
 _夜枫
发布于 2017/04/04 21:34
字数 1407
阅读 37
收藏 1

“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提出了很高的要求。

关于墨迹天气

北京墨迹风云科技股份有限公司于2010年成立,是一家以“做卓越的天气服务公司”为目标的新兴移动互联网公司,主要开发和运营的“墨迹天气”是一款免费的天气信息查询软件。“墨迹天气”APP目前在全球约有超过5亿人在使用,支持196个国家70多万个城市及地区的天气查询,分钟级、公里级天气预报,实时预报雨雪。提供15天天气预报,5天空气质量预报,实时空气质量及空气质量等级预报,其短时预报功能,可实现未来2小时内,每10分钟一次,预测逐分钟逐公里的天气情况。特殊天气提前发送预警信息,帮助用户更好做出生活决策。在墨迹天气上,每天有超过 5 亿次的天气查询需求和将近20亿次的广告请求,这个数字甚至要大于 Twitter 每天发帖量。墨迹天气已经集成了多语言版本,可根据手机系统语言自动适配,用户覆盖包括中国大陆、港澳台,日韩及东南亚、欧美等全球各地用户。

挑战

墨迹运营团队每天最关心的是用户正在如何使用墨迹,在他们操作中透露了哪些个性化需求。这些数据全部存储在墨迹的API日志中,对这些数据分析,就变成了运营团队每天的最重要的工作。墨迹天气的API每天产生的日志量大约在2TB左右,主要的日志分析场景是天气查询业务和广告业务。
“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提出了很高的要求。 之前墨迹使用国外某云计算服务公司的云服务器存储这些数据,利用Hadoop的MapReducer和Hive对数据进行处理分析,但是存在以下问题:
1.成本:包括存储、计算及大数据处理服务成本对比阿里云成本很高。
2.网络带宽:移动端业务量大,需要大量的网络带宽资源支持,但数据上传也需要占用网络带宽,彼此之间相互干扰造成数据传输不稳定。

解决方案及架构

针对上述情况,墨迹将日志分析业务逐步迁移到阿里云大数据平台-数加平台之上。 
新的日志分析架构如页面下方架构图所示。
方案涉及的阿里云数加平台组件有:
阿里云数加-大数据计算服务MaxCompute产品地址https://www.aliyun.com/product/odps
• 大数据开发套件(DataIDE)https://data.aliyun.com/product/ide
• 流计算(StreamCompute,规划中)https://data.aliyun.com/product/sc
• 流式数据发布和订阅(DataHub)
另外,由于每天产生的数据量较大,上传数据会占用带宽,为了不影响业务系统的网络资源,客户开通了阿里云高速通道,用于数据上传。通过此种手段解决了网络带宽的问题。
通过阿里云数加日志分析解决方案,墨迹的业务得到以下提升:
1.充分利用移动端积累下来的海量日志数据。
2.对用户使用情况和广告业务进行大数据分析。
3.利用阿里云数加大数据技术,基于对日志数据的分析,支持运营团队和广告团队优化现有业务。

 

收益

1.迁移到MaxCompute后,流程上做了优化,省掉了编写MR程序的工作,日志数据全部通过SQL进行分析,工作效率提升了5倍以上。
2.存储方面,MaxCompute的表按列压缩存储,更节省存储空间,整体存储和计算的费用比之前省了70%,性能和稳定性也有很大提升。
3.可以借助MaxCompute上的机器学习算法,对数据进行深度挖掘,为用户提供个性化的服务。
4.阿里云MaxCompute提供更为易用、全面的大数据分析功能。MaxCompute可根据业务情况做到计算资源自动弹性伸缩,天然集成存储功能。通过简单的几项配置操作后,即可完成数据上传,同时实现了多种开源软件的对接。

 

架构图

TB1hT5EOVXXXXc_apXXXXXXXXXX-940-459.png

本文转载自:https://yq.aliyun.com/articles/68211

_夜枫
粉丝 10
博文 506
码字总数 0
作品 0
朝阳
后端工程师
私信 提问
北塔软件:BI+AI+DI,做IT运维数据掘金的使能者

需要决策的地方,都需要数据支撑,大数据的价值就在于此。随着云计算、大数据、移动化、社交网络等新兴应用的蓬勃发展,IT运维的数据量开始爆发。那么,这些数据是待开垦的荒山,还是价值连城...

玄学酱
2018/03/05
0
0
没有数据,何谈精准营销?

诸葛君说:在未来,企业只有拥有了消费者360°画像才能掌握更多主动权,大数据时代,用户的很多行为轨迹都暴露在互联网上,通过技术手段分析行为数据,会对消费者有深刻的理解,实时观察了解...

诸葛io
2018/01/26
0
0
阿里云&数数科技联合打造新一代游戏数据分析系统正式上线

一、行业综述 随着游戏产业进入成熟期,行业竞争日益激烈,给企业的市场运营及拓展带来了极大挑战,主要体现在两方面: 在这样的背景下,越来越多的公司开始重视数据化运营体系的构建,通过基...

亲君123
2018/05/23
0
0
阿里云移动数据分析服务功能与应用场景

移动数据分析 (Mobile Analytics) 是阿里云推出的一款移动App数据统计分析产品,为开发者提供一站式数据化运营服务:通用的多维度用户行为分析、数据开放并支持自定义分析、数据无缝对接其他...

mcy0425
2018/08/30
10
0
巧用大数据,探知人、时间与空间的内在联系

数据时代的到来,对城市规划产生了重大意义。 大数据可以更客观快速地识别人口增长过快、资源紧张、环境恶化、交通拥堵等城市问题,同时,有助于提高城镇化质量,实现精细化和动态管理,进而...

个推大数据
03/06
0
0

没有更多内容

加载失败,请刷新页面

加载更多

python数据结构

1、字符串及其方法(案例来自Python-100-Days) def main(): str1 = 'hello, world!' # 通过len函数计算字符串的长度 print(len(str1)) # 13 # 获得字符串首字母大写的...

huijue
6分钟前
0
0
OSChina 周日乱弹 —— 我,小小编辑,食人族酋长

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @宇辰OSC :分享娃娃的单曲《飘洋过海来看你》: #今日歌曲推荐# 《飘洋过海来看你》- 娃娃 手机党少年们想听歌,请使劲儿戳(这里) @宇辰OSC...

小小编辑
今天
735
10
MongoDB系列-- SpringBoot 中对 MongoDB 的 基本操作

SpringBoot 中对 MongoDB 的 基本操作 Database 库的创建 首先 在MongoDB 操作客户端 Robo 3T 中 创建数据库: 增加用户User: 创建 Collections 集合(类似mysql 中的 表): 后面我们大部分都...

TcWong
今天
40
0
spring cloud

一、从面试题入手 1.1、什么事微服务 1.2、微服务之间如何独立通讯的 1.3、springCloud和Dubbo有哪些区别 1.通信机制:DUbbo基于RPC远程过程调用;微服务cloud基于http restFUL API 1.4、spr...

榴莲黑芝麻糊
今天
26
0
Executor线程池原理与源码解读

线程池为线程生命周期的开销和资源不足问题提供了解决方 案。通过对多个任务重用线程,线程创建的开销被分摊到了多个任务上。 线程实现方式 Thread、Runnable、Callable //实现Runnable接口的...

小强的进阶之路
昨天
79
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部