加载中
干货|数据仓库与数据湖:区别与联系

写在前面 对于不熟悉或者刚接触大数据不久的人来说,当听到数据湖这个概念时,可能会感到非常的困惑。即便你对数据湖不太了解的话,你也一定听说过一个名词:数据仓库,其实本质上两者都是企...

面试|面向行的数据库VS面向列的数据库

总览 数据库的数据存储有两种类型,一种是面向行的(row-oriented)数据库,另一种是面向列的(column-oriented )数据库。 面向行(事务型) 数据库 该类数据库是根据记录(record)组织数据的,将所...

Flink 1.14流批一体新特性

▼ 关注「大数据技术与数仓」,获取更多技术干货 ▼ 摘要:本文由社区志愿者陈政羽整理,内容源自阿里巴巴技术专家宋辛童 (五藏) 在 8 月 7 日线上 Flink Meetup 分享的《Flink 1.14 新特性预...

为什么巨头的 Flink 作业运行都在 YARN 上?(附源码)

这两天有粉丝问我,你们公司的 Flink 作业运行在什么上面?我的回答是:YARN。 之前我做过一些调查,发现目前还是有很多公司的大数据计算平台离不开 YARN,会将 MapReduce、Spark、Flink 等任...

面试|十分钟聊透Spark(附录综合案例)

Spark是一个快速的大数据处理引擎,在实际的生产环境中,应用十分广泛。目前,Spark仍然是大数据开发非常重要的一个工具,所以在面试的过程中,Spark也会是被重点考察的对象。对于初学者而言...

面试|为什么 Spark 的性能优于 Hadoop?

Spark特点 Spark最初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的快速、通用引擎。2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,...

面试|深入理解YARN的内部架构

引言 Apache YARN(Yet Another Resource Negotiator)是 Hadoop 的集群资源管理器。Yarn 是在 Hadoop 2.x 中引入的。 Yarn 允许不同的数据处理引擎,如图形处理、交互处理、流处理以及批处理...

数仓|如何使用RFM模型进行用户分层

在适当、有效的商务智能环境中,数据分析的质量必须得到保障。而确保数据分析质量的第一步就是根据问题需求从海量数据中提炼出真正所需的数据,因为这是发挥数据价值很重要的一个方面。通过数...

三流分析师取数,二流分析师做报告,一流分析师……

前不久,K12教育行业遭重。 作业帮、猿辅导等头部校外教培机构均被处以顶格罚款,公司股价大跌,市值蒸发百亿,裁员潮不可避免地降临。 ▲ 信息来源:市场监管总局 实际上,类似的事情一直都...

Spark ON YARN的资源分配图解

任务提交脚本 脚本模板 当我们提交一个Spark作业到YARN上,通常情况下会使用如下的脚本模板: spark-submit --class class-name --master yarn --deploy-mode cluster --dri......

快手基于 Flink 构建实时数仓场景化实践

摘要:本文整理自快手数据技术专家李天朔在 5 月 22 日北京站 Flink Meetup 分享的议题《快手基于 Flink 构建实时数仓场景化实践》,内容包括: 快手实时计算场景 快手实时数仓架构及保障措施...

数仓出局,中台已凉,数据湖称王!

大数据领域,传统的数仓技术显然已经无法满足时代的发展需求。 随着我国数字化社会的加速构建,“以数据为基础,以业务为核心,依托生产、流通、交易等场景化载体,综合应用人工智能等新一代...

三条命令搞定MacOS安装Greenplum

写在前面 Mac的Term2 是 Terminal 的替代者。这是一款用于 macOS 的终端模拟器,支持窗口分割、热键、搜索、自动补齐、无鼠标复制、历史粘贴、即时重播等功能特性,适用于 MacOS 10.10 及以上...

数仓|JOIN数据倾斜优化

背景 当数据量比较大且分布不均匀时,对数据进行JOIN操作很容易造成数据倾斜,因为在JOIN的执行阶段会将JOIN KEY相同的数据分发到同一个task任务上处理,如果某个key上的数据量比较多,会导致...

实时数仓|基于Flink1.11的SQL构建实时数仓探索实践

实时数仓主要是为了解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然关于实时数仓的架构及技术选型与传统的离线数仓会存在...

2021/08/19 08:55
0
又一个巨头决定彻底放弃数仓,全面拥抱数据中台!

提起业务流量,除了全民抢票平台 12306,当数阿里最有发言权。 上到双十一千亿级流量洪峰,下到日均百万、千万交易量的平台,每个业务模块背后的高并发架构理念,无处不在。 成熟的架构设计只...

介绍几位数据老兵

关于成长,见仁见智,很难有一个准确的定义。 达里奥曾有过这样的描述:「如果你现在不觉得一年前的自己是个蠢货,那说明你这一年没学到什么东西」;混沌大学李善友教授曾这样描述:成长就是...

数仓|长周期去重指标的计算优化

背景 在电商数据仓库和商业分析场景中,经常需要计算最近N天的UV、成交用户数等类似的指标,这些指标都有两个共同的特点 去重,在时间窗口范围内,一个用户多次访问或者购买,只统计一次 时间...

再见数仓、数据库,数据湖才是yyds!

数仓技术应对关系型结构化数据游刃有余,但对于多元异构数据,却爱莫能助。最近行业大佬都在聊怎么部署数据湖,这波操作未来走向如何? 数据湖技术能够实现全量数据的单一存储,通常存储原始...

Flink + Iceberg,百亿级实时数据入湖实战

摘要:本文整理自腾讯数据湖研发高级工程师陈俊杰在 4 月 17 日 上海站 Flink Meetup 分享的《百亿级实时数据入湖实战》。内容包括: 腾讯数据湖介绍 百亿级数据场景落地 未来规划 总结 Tips...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部