文档章节

FEA大数据实践之亿级数据量处理

openfea
 openfea
发布于 2017/02/15 19:24
字数 1024
阅读 86
收藏 0

一、数据源介绍

某日志平台,详细的记录了数据库使用者的下列数据:

用户编号

访问时间

登录终端

访问模块

访问内容

如:用户1000001在2016-08-08 08:08:08通过192.168.3.1访问了A10001系统,查询了2016-08-01到2016-08-07日的流水记录;在2016-08-08 18:08:08通过192.167.3.1访问了A10002系统,查询了2016-07-01到2016-08-07日的流水记录;…

此日志平台的特点:

日志量大:单日产生1亿条数据

数据不均:个别用户单日数据量百万级别

二、相关经验总结

FEA进行数据分析的方式是:把DF二维表格加载进入内存,然后进行计算,优点是在计算机内存越来越大的今天,分析人员可以构建复杂的数据模型,而无需担心工具能否实现,…,

FEA面临的新困难或者瓶颈是,数据量总会压爆内存,加载速度也有限制,…,特别是在计算资源有限的情况下(内存32G,数据量2T),笔者曾经遇到的情况是:

加载800万条数据,进行提取关键词、分类汇总操作,FEA总用时10分钟;但是加载2亿条数据的时候,按照处理800万条数据量的方法,发现目标无法达成:

数据加载不完,集群宕机

数据丢失,计算出错

三、处理思路

数据

FEA节点

如上图示例,亿级数据总共分布在15*15*4=900数据块里面,每块的数据量大小不一,9个FEA节点,单个节点一次可以加载200万条数据(集群稳定与可靠起见,FEA节点处理200万条数据是可靠的)

处理思路是这样的:如果某个5*5数据块数据量超过某一定值如200万,就一块一块加载,如果某5*5块数据加起来不超过200万条数据,就一起加载

四、FEA实现

1. 计算目标

笔者要在此日志平台上完成一个操作,在哪一天,哪个小时,哪个用户,哪个终端,哪个系统,访问了多少次

2. 阈值设定

笔者的处理思路是:在一年的时间内,如果单日的数据量小于40万条,就按日加载,如果单日的数据量大于等于40万条就分小时加载

3.模型逻辑图

原始数据需要通过适当的判断,变成逻辑分片,如2016-01-01 00:00:00-00:59:59,…, 2016-01-01 23:00:00-23:59:59, 2016-01-02, 2016-01-03

逻辑上可行,要FEA实现,加载语句是带有参数的,所以需要处理

每一次运行的结果需要单独储存在硬盘上,分片结果需要按照逻辑分片重新加载,形成最终结果

4. 实现细节

map实现

第一步就是利用es集群按日统计数据,

已经知道每一天的数据量,下一步就是按照选择大于等于40万的日期,进一步按小时细分

第二步

已经对访问量大于等于40万的日期,实现了按时细分,下一步是把访问量小于40万的日期给合并进来

此表a就是逻辑分片表,no列是添加的编号,便于分片结果的保存,也是reduce实现过程的过程的关键

cluster实现

逻辑规则比较复杂的话,FEA实现cluster运算的关键是加载语句的不同,如面语句实现的核心是,如果某一日不按时加载,$spc就是空格

集群运算

reduce实现

b表就是我们要的最终结果

五、数据验证

笔者在city=3306数据上,测试了2015-12-01,到2016-12-01的数据131,767,357条数据,运行2小时,没有丢失一条数据,成功达成目标。

© 著作权归作者所有

openfea
粉丝 18
博文 86
码字总数 95615
作品 1
杭州
其他
私信 提问
Spark2.x与ElasticSearch的完美结合

ElasticSearch(简称ES)是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RestFul web接口。ElasticSearch是用Java开发的,并作为Apache许可条款下的开放源...

openfea
2017/10/19
287
0
可视化大数据分析挖掘工具 - OpenFEA

一、简介 FEA是一站式大数据敏捷分析中间件,融合了内存计算、机器学习、交互分析、可视化分析等技术,涵盖数据收集、数据探索、构建模型、发布模型、可视化展示、分析门户等功能,无需复杂编...

openfea
2017/05/27
15.4K
8
现身说法:实际业务出发分析百亿数据量下的多表查询优化

今天给大家带来的讨论主题是通过实战经验来对百亿数据量下的多表数据查询进行优化,俗话说的好,一切脱离业务的架构都是耍流氓,接下来我就整理一下今天早上微信群里石头哥给大家分享的百亿数...

依乐祝
03/14
0
0
MOT武汉站|技术架构演进:亿级用户平台的架构演进

技术型企业最期待的是什么?用1-2年时间拥有亿级用户! 短时间内的用户爆发性增长印证产品方向的正确,但是也带来研发技术上的挑战。 作为技术领导,需要具备前瞻性思维,在百万用户的时候建...

msup
2017/05/03
25
0
MOT武汉站|技术架构演进:亿级用户平台的架构演进

技术型企业最期待的是什么?用1-2年时间拥有亿级用户! 短时间内的用户爆发性增长印证产品方向的正确,但是也带来研发技术上的挑战。 作为技术领导,需要具备前瞻性思维,在百万用户的时候建...

msup
2017/05/03
15
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周六乱弹 —— 早上儿子问我他是怎么来的

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @凉小生 :#今日歌曲推荐# 少点戾气,愿你和这个世界温柔以待。中岛美嘉的单曲《僕が死のうと思ったのは (曾经我也想过一了百了)》 《僕が死の...

小小编辑
今天
1K
12
Excption与Error包结构,OOM 你遇到过哪些情况,SOF 你遇到过哪些情况

Throwable 是 Java 中所有错误与异常的超类,Throwable 包含两个子类,Error 与 Exception 。用于指示发生了异常情况。 Java 抛出的 Throwable 可以分成三种类型。 被检查异常(checked Exc...

Garphy
今天
38
0
计算机实现原理专题--二进制减法器(二)

在计算机实现原理专题--二进制减法器(一)中说明了基本原理,现准备说明如何来实现。 首先第一步255-b运算相当于对b进行按位取反,因此可将8个非门组成如下图的形式: 由于每次做减法时,我...

FAT_mt
昨天
40
0
好程序员大数据学习路线分享函数+map映射+元祖

好程序员大数据学习路线分享函数+map映射+元祖,大数据各个平台上的语言实现 hadoop 由java实现,2003年至今,三大块:数据处理,数据存储,数据计算 存储: hbase --> 数据成表 处理: hive --> 数...

好程序员官方
昨天
59
0
tabel 中含有复选框的列 数据理解

1、el-ui中实现某一列为复选框 实现多选非常简单: 手动添加一个el-table-column,设type属性为selction即可; 2、@selection-change事件:选项发生勾选状态变化时触发该事件 <el-table @sel...

everthing
昨天
20
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部