文档章节

据阿里云EMR快速搭建数据平台(二)

hblt-j
 hblt-j
发布于 2017/04/13 18:22
字数 1302
阅读 93
收藏 0

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>>

数据平台架构跌代及研发

输入图片说明

架构方案及版本跌代

统计版0.0.1

spark+redis+oss+sls相关接口测试用例和分析环境都已打通

解析后内容,缓存内容,数据检查点:内存和本地或hadoop临时文件

持续更新状态或数据累加汇总结果直接记redis

常用中间结果数据集考虑存oss(redis备选简单集存储,因数据链接资源问题,不适用直接在nosql上做跌代计算),如新老访客标识等

redis存储KEY(暂定):domain-prduct-model-指标[-维度1|维度2-周期-其它]

如:twotiger访问统计 站点概要 当天北京小时级ip分步的前十个IP twotiger.com-siteStatistics-siteSummary-ip-timeDim=today|regionalDim=110000-h-top10

维度表存储

mysql
阿里统一了hive元数据库(统一了不给root权限,不在emr,可能不能手动增改,总之不灵活,如是业务性质维度也不太安全)
自建rds 库保存管理维护元数据
emr中master节点有一本地mysql,先把维度表暂放至test库,以后在迁移
oss文件
hbase
其它nosql

统计+检索(当前需求基本满足)

nosql为主的集群,如mogo,解决关系型百万级以上读写常用统计困难问题

优点:以业务方案统一,简单直接成熟易操作开发维护投入成本低,常用检索统计需求均可满足,除nosql分步式存储访问优势,

还能运用spark给业务查询统计带来分步式计算的优势,如百万级记录统计,从db的30s到nosql的10s内到spark的秒级

劣势:

1.正则检索并不能发挥nosql内存索引优化,不支持Join,区分大小写,内存翻倍增长,分片均衡拷备延迟,锁管理等 2.日志容量增长是业务数据的倍数,可能很快到达nosql边界,出现丢数据,无端故障等不稳定状况, 需实际测试,nosql集群的边界和日志的增长合理估算周期和投入

针对版本一架构的改动:

缓存及数据检查点不变
解析后内容或数据处理后结果直接进mongo
mongo3.2以上,shard分片加replcat set,ssd缓存或全硬盘 2核 4G集群版(据数据增长扩容shard;目前rds都可以改配置有几次停屯,升级拷备不影响使用时间)
10万全表扫描?秒,百万? 秒
单实例存储量估计?W,内存使用估计?G,监控指标?%备增节点或做相应优化
阿里官方性能指标:单分片(shard)最大支持25600的IOPS,最大存储2T数据,单分片最大可承载近 10万 QPS 的应用压力;且Sharding模式支持水平无限扩展
个别慢查询优化方案:独立connection或hbase中做预查询存储优化
持续状态和汇总统计结果值可以用redis也可以合到mongo另一独立connection
常用中间结果集类似oss主为,mongo或redis备选

升级版,mongo极限后迁致hbase,量上解决了,但检索开发及性能由自己设计,维护成本没有优势

十万条全表查询秒级,百万在5-8秒
有rowkey过虑功能,社区支持勾子函数实现二级索引
全文检索还是另借lucence等实现
适合场景:

结构化(单纯的、海量的key value)或半结构化的非关系型的数据,大规模写入(注意适时禁用auto split)、扫库的业务

不适宜:

1.随机读取:整block加载到内存,二分查找,缓存不断重建修改 2.灵活查询则需要自己构建二级索引,甚至重复数据建立不同的查询key实现,冗余和灵活性,维护开发成本大

阿里公测阶段需申请

统计+全文检索版(为一检索功能投入太大)

日志服务+OTS(没这东西据查,日志搜索一个是周期限制历史数据 没有不是全量, 二是只简单手动配置索引,需现加Keywords)

阿里不支持ES是opensearch服务(对决解析后的oss,页面级设置即可生成日志分词索引)

ES自搭。。。

架构改动:

解析及处理后结果偏向存oss或hadoop或自有分步索引格式
全文检索上做统计,要做中间桥接匹配,如检索出的记录,用id列在spark rdd中做filter 或是nosql中in(ids,,,)
其它类似redis 或mongo

数仓DW,集市DM,OLAP,BI完整版(大工程,针对多仓库多系统多行业)

仓库设计管理维护

ODS

集市设计管理维护

元数据管理维护

多维度(拖拉)粒度(上钻下取)自助分析平台OLAP

cube加速技术

kylin
presto
impala
自建加速宽表优化

商业BI,智能决策中心,,,,

© 著作权归作者所有

hblt-j
粉丝 24
博文 218
码字总数 73000
作品 0
海淀
架构师
私信 提问
熊猫直播:大视频数据业务的云上历程

在海量数据的大视频行业,如何满足大数据需求?12月20日举办的北京云栖大会“企业云上业务优化”分论坛上,熊猫直播大数据技术专家卢圣刚,分享了熊猫直播不断优化云上资源,建立起灵活配置、...

阿里云服务
2017/12/21
0
0
【全记录】2017云栖大会·北京峰会——企业云上业务优化专场

作为本年度科技界的压轴大戏,2017云栖大会·北京峰会盛大空前, 30+主题论坛、深度技术解读、行业前沿实践分享以及创新互动体验让来到现场的朋友们印象深刻。本次峰会中,由阿里云客户服务部...

阿里云服务
2017/12/22
0
0
钉钉群直播【E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台】

搜群号:21784001 主题: E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台 讲师: 夏立,花名雷飙,阿里巴巴计算平台EMR高级产品专家,2014年开始接触大数据,历经阿里内部的大数据发...

开源大数据EMR
07/02
0
0
Hadoop默认支持集成OSS,作为Hadoop兼容的文件系统

背景 2017.12.13日Apache Hadoop3.0.0正式版本发布,默认支持阿里云OSS对象存储系统,作为Hadoop兼容的文件系统。 OSS是中国云计算厂商第一个也是目前唯一一个被Hadoop官方版本支持的云存储系...

阿里云云栖社区
2017/12/19
0
0
5分钟迅速搭建云上Lambda大数据分析架构

背景 Spark 中国社区联合阿里云 EMR 技术交流群,Tablestore 技术交流群举办了一场联合技术直播。直播的话题是“海量结构化数据的实时计算和处理”,主要介绍基于 Tablestore 的数据变更实时...

宇珩
10/18
0
0

没有更多内容

加载失败,请刷新页面

加载更多

聊聊rocketmq producer的batch

序 本文主要研究一下rocketmq producer的batch batch rocketmq-client-4.6.0-sources.jar!/org/apache/rocketmq/client/producer/DefaultMQProducer.java public class DefaultMQProducer ex......

go4it
昨天
5
0
Delphi中的延时

开发过程中经常会需要使用到延时功能,Delphi中有不少实现延时的方法,网上已有不少文章做过说明和分析,但本着实践出真知的态度,还是亲自动手研究一番心里比较踏实。 常用的延时方法 Slee...

天朝八阿哥
昨天
5
0
001-Consul

Consul安装(单节点) mkdir -p /data/consulcd /data/consulwget https://releases.hashicorp.com/consul/1.6.2/consul_1.6.2_linux_amd64.zipunzip consul_1.6.2_linux_amd64.zip复制c......

伟大源于勇敢的开始
昨天
5
0
nginx + frp 搭建内网穿透

上一个项目是开发微信公众号,由于微信的各种烦人操作,只能到处找内网映射工具 ngrok也用过,花生壳也用过 都不怎么稳定,无意间听说了frp,本着一颗折腾的心搭建了一下,结果发现很不错,就...

lineasy
昨天
8
0
构建CRD工程 - 程序员学点xx 43 k8s

Kubernetes -3- <!--more--> <center>这是yann的第98篇分享</center> [TOC] 本日状态: 帮同事排了一天bug。 Kubernetes -3- <!--more--> 这是yann的第98篇分享 第 1 部分 承前 昨天用视屏的方......

tmp4
昨天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部