加载中
数据管理:业务数据清洗,落地实现方案

一、业务背景 在系统业务开发的过程中,都会面临这样一个问题:面对业务的快速扩展,很多版本在当时没有时间去全局考虑,导致很多业务数据存储和管理并不规范,例如常见的问题: 地址采取输入...

实时计算框架:Flink集群搭建与运行机制

一、Flink概述 1、基础简介 Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。主要特...

实时计算框架:Spark集群搭建与入门案例

一、Spark概述 1、Spark简介 Spark是专为大规模数据处理而设计的,基于内存快速通用,可扩展的集群计算引擎,实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流,运算速度相比于Map...

OLAP引擎:基于Presto组件进行跨数据源分析

一、Presto概述 1、Presto简介 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节,Presto虽然具备解析SQL的能力,但它并不属于标准的数据库范畴。 Presto...

OLAP引擎:基于Druid组件进行数据统计分析

一、Druid概述 1、Druid简介 Druid是一款基于分布式架构的OLAP引擎,支持数据写入、低延时、高性能的数据分析,具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、监控等领域都...

基于业务和平台理解数字营销概念

一、基本角色划分 数字营销模式中三个基本角色和模式:广告主通过流量主把广告内容传递到受众人群。 1、广告主 广告主是指想为自己的品牌或者产品做广告推销的用户,广告的根本目的是提高营销...

数据仓库组件:HBase集群环境搭建和应用案例

本文源码:GitHub || GitEE 一、Hbase简介 1、基础描述 Hadoop原生的特点是解决大规模数据的离线批量处理场景,HDFS具备强大存储能力,但是并没有提供很强的数据查询机制。HBase组件则是基于...

标签管理体系之业务应用

一、评估标签质量 1、业务背景 基于标签对业务进行精准分析,从而影响运营思路和产品迭代的节奏,进而带来非常高的商业价值,但是这里需要对标签的质量进行评估,假设标签的覆盖场景非常低,...

数据管理流程,基础入门简介

一、基础思维 数据在现在互联网的行业中可以说是最核心的话题,数据的价值已经被称为资产了,大部分的互联网应用都会源源不断的产生各种数据,如何管理和使用这些数据,让这些看似平常的数据...

2020/12/08 21:56
1.7K
Hadoop框架:MapReduce基本原理和入门案例

本文源码:GitHub·点这里 || GitEE·点这里 一、MapReduce概述 1、基本概念 Hadoop核心组件之一:分布式计算的方案MapReduce,是一种编程模型,用于大规模数据集的并行运算,其中Map(映射)...

Hadoop框架:HDFS高可用环境配置

本文源码:GitHub·点这里 || GitEE·点这里 一、HDFS高可用 1、基础描述 在单点或者少数节点故障的情况下,集群还可以正常的提供服务,HDFS高可用机制可以通过配置Active/Standby两个NameN...

数据调度组件:基于Azkaban协调时序任务执行

一、Azkaban概述 1、任务时序 在数据服务的业务场景中,很常见的业务流程就是日志文件经过大数据分析,再向业务输出结果数据;在该过程中会有很多任务需要执行,并且很难精准把握任务执行的结...

数据搬运组件:基于Sqoop管理数据导入和导出

本文源码:GitHub || GitEE 一、Sqoop概述 Sqoop是一款开源的大数据组件,主要用来在Hadoop(Hive、HBase等)与传统的数据库(mysql、postgresql、oracle等)间进行数据的传递。 通常数据搬运的组...

数据采集组件:Flume基础用法和Kafka集成

本文源码:GitHub || GitEE 一、Flume简介 1、基础描述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,...

03/05 09:03
23
用户画像分析与场景应用

一、用户画像 1、概念描述 用户画像,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。用户画像最初是在电商领域得到应用的,尤其在数字化营销...

数据仓库组件:Hive环境搭建和基础用法

本文源码:GitHub || GitEE 一、Hive基础简介 1、基础描述 Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,是一个可以对Hadoop中的大规模存储的数据进行查询和分析存储...

数据应用场景之标签管理体系

一、标签简介 标签概念 标签,最初用来对实物进行分类和标记,例如标明物品的品名、重量、体积、用途等简要信息。后来逐渐流行到数据行业,用来标记数据,对数据快速分类获取和分析。 标签特...

数据全景洞察概念简介

一、全景洞察简介 1、行业背景 智能数字时代,数据不论形态、格式和类型,已经迅速成为企业最有战略意义的资产;数据资产已经成为了可以形成业务洞察及优势的战略资源,数据的体量、多样性和...

2020/12/26 22:05
87
业务场景下数据采集机制和策略

一、场景描述 做面向C端用户的产品,十分依赖用户数据的收集,下面都见过这样一张数据分析图,通过链路上各个环节的数据采集,分析对比出曝光产品的交易量: 通过对商品的浏览-点击-交易页面...

Hadoop框架:Yarn基本结构和运行原理

本文源码:GitHub·点这里 || GitEE·点这里 一、Yarn基本结构 Hadoop三大核心组件:分布式文件系统HDFS、分布式计算框架MapReduce,分布式集群资源调度框架Yarn。Yarn并不是在Hadoop初期就有...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部