加载中
电商数据应用体系建设总结(三)—— 离线数据兜底方案

背景 目前我们使用Lambda架构来处理数据,Flink处理实时数据,Spark处理离线数据。Spark离线任务在每天凌晨的0-8点调度执行,在这段时间内,用户是看不到昨日未产出的离线数据的,数据应用对...

电商数据应用体系建设总结(二)—— 数据应用层架构介绍和规范总结

数据经过ETL、存储等数据处理过程之后,通过数据应用产品的形式呈现给最终使用方,PC和APP类数据产品以各类不同用途的数据大屏、看板将数据指标展示给管理者、运营和业务人员,数据应用后端也...

电商数据应用体系建设总结(一)—— 数据应用架构剖析

什么是数据应用 数据应用是通过各种各样的数据分析方式将数据展示出来,给决策者、管理者、运营等人员透传数据价值的工具,帮助决策者、管理者及时调整战略目标、公司目标、业务目标,帮助运...

滴滴 x StarRocks:极速多维分析创造更大的业务价值

滴滴集团作为生活服务领域的头部企业,正在全面测试和上线StarRocks,其中橙心优选经过一年多的数据体系建设,我们逐渐将一部分需要实时交互查询、即席查询的多维数据分析需求由ClickHouse迁...

使用Apache Kudu和Impala实现存储分层

当为应用程序的数据选择一个存储系统时,我们通常会选择一个最适合我们业务场景的存储系统。对于快速更新和实时分析工作较多的场景,我们可能希望使用Apache Kudu,但是对于低成本的大规模可...

2019/05/20 11:23
3.6K
kafka-connect-hive sink插件实现要点小结

kafka-connect-hive sink插件实现了以ORC和Parquet两种方式向Hive表中写入数据。Connector定期从Kafka轮询数据并将其写入HDFS,来自每个Kafka主题的数据由提供的分区字段进行分区并划分为块,...

kafka-connect-hive sink插件入门指南

kafka-connect-hive是基于kafka-connect平台实现的hive数据读取和写入插件,主要由source、sink两部分组成,source部分完成hive表数据的读取任务,kafka-connect将这些数据写入到其他数据存储...

2019/02/15 17:33
5.8K
Apache Griffin 入门指南

数据质量模块是大数据平台中必不可少的一个功能组件,Apache Griffin(以下简称Griffin)是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(...

Kudu异常总结

1、impala不支持kudu表的关键字:PARTITIONED - LOCATION - ROWFORMAT(官方链接:Impala Keywords Not Supported for Kudu Tables),例如执行如下语句会报错: CREATE TABLE my_first_tabl...

Kudu 1.7 安装指南

注:本安装指南使用rpm的方式安装kudu,因为在测试过程中,发现源码编译安装kudu后部分命令无法使用,故放弃这种方式。 环境: 操作系统:centos 6.6 kudu版本:kudu-1.7.0+cdh5.16.1 一、依...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部