加载中
实战 Prometheus 搭建监控系统

Prometheus 是一款基于时序数据库的开源监控告警系统,说起 Prometheus 则不得不提 SoundCloud,这是一个在线音乐分享的平台,类似于做视频分享的 YouTube,由于他们在微服务架构的道路上越走...

干货 | 携程数据血缘构建及应用

一、前言 Data lineage includes the data origin, what happens to it and where it moves over time. Data lineage gives visibility while greatly simplifying the ability to trace err...

面试官问JDK7和JDK8的HashMap不一样在哪里?我懵了

相信大家在面试的时候,肯定很多人被问到HashMap,一般上来都是 HashMap 用过没有,说一下他的数据结构吧,但是阿粉的朋友去面试的时候,上来直接进入主题,HashMap 在 JDK7 和 JDK8 中出现了...

讲一些关于Spark的Broadcast你不知道的细节

顾名思义,broadcast 就是将数据从一个节点发送到其他各个节点上去。这样的场景很多,比如 driver 上有一张表,其他节点上运行的 task 需要 lookup 这张表,那么 driver 可以先把这张表 copy...

如何设计实时数据平台(技术篇)

导读:实时数据平台(RTDP,Real-time Data Platform)是一个重要且常见的大数据基础设施平台。在上篇(设计篇)中,我们从现代数仓架构角度和典型数据处理角度介绍了RTDP,并探讨了RTDP的整...

如何设计实时数据平台(设计篇)

导读:本文将会分上下两篇对一个重要且常见的大数据基础设施平台展开讨论,即“实时数据平台”。在上篇设计篇中,我们首先从两个维度介绍实时数据平台:从现代数仓架构角度看待实时数据平台,...

数据仓库体系建模实施及注意事项小总结

什么是数仓 从字面上来看,数据仓库就是一个存放数据的仓库,它里面存放了各种各样的数据,而这些数据需要按照一些结构、规则来组织和存放。这里我们会遇到一个问题就是同样是存放数据的仓库...

最强集群,没有之一!Spark、Flink都要运行在上面!

曾有人调侃:HBase 没有资源什么事情也做不了,Spark 占用了资源却没有事情可做? 那 YARN了解一下? 01 YARN! 伴随着Hadoop生态的发展,不断涌现了多种多样的技术组件 Hive、HBase、Spark...

大数据数据仓库建设

前言 互联网行业,除了数据量大之外,业务时效性要求也很高,甚至很多是要求实时的, 另外,互联网行业的业务变化非常快,不可能像传统行业一样,可以使用自顶向下的方法建立数据仓库,一劳永...

金九福利!大数据人高薪跳槽指南!

当今时代,跳槽确实是大部分人升职加薪最快的方式,特别是职业生涯初期。说起来也是很无奈,公司经常是宁愿花更多的钱来请个新人也不愿意加薪留住老人。 面试了 N 多公司之后,我发现其实问来...

实时系统-时间属性深度解析

前言 Flink 的 API 大体上可以划分为三个层次:处于最底层的 ProcessFunction、中间一层的 DataStream API 和最上层的 SQL/Table API,这三层中的每一层都非常依赖于时间属性。时间属性是流处...

数据湖实践:3天用Hudi撸了一套系统出来,我飘了~

业务数据化、数据资产化、资产服务化正成为数智化时代的特色标志。 随着IOT、人工智能、云计算、大数据等技术的普及和发展,数据驱动经济发展的时代已然到来。 现如今,每天大约有2.5万亿兆字...

腾讯基于兴趣点图谱的内容理解

导读:本文将介绍我们如何使用大规模的UGC数据挖掘用户真实的阅读意图,构建兴趣点图谱,并将图谱用于内容理解。最终,使大家了解如何通过构建用于信息流的兴趣点图谱,来提升信息流推荐效果...

电商供应链数仓平台该如何建设?哪些点需要注意?

导读:随着蜀海供应链业务的发展,供应链中各个环节角色的工作人员利用数据对业务进行增长分析的需求越来越迫切。在过去大数据分析平台架构1.0的实践中,存在数据生产链路太长,架构太复杂,...

Flink网络流控及反压剖析-InfoQ

https://www.infoq.cn/article/g8DbwKBoxSk4JdBXA7fX 本文根据 Apache Flink 系列直播整理而成,由 Apache Flink Contributor、OPPO 大数据平台研发负责人张俊老师分享。主要内容如下: 网络...

09/05 10:00
0
Apache Spark 内存管理(堆内/堆外)详解

导读:Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理,有助于更好地开发Spark应用程序和进行性能调优。本文将详细...

2天撸了个大数据中台出来,我飘了~

提起业务流量,除了全民抢票平台 12306,当数阿里最有发言权。 上到双十一千亿级流量洪峰,下到日均百万、千万交易量的平台,每个业务模块背后的高并发架构理念,无处不在。 成熟的架构设计只...

Hive 中的排序和开窗函数

Hive 中的四种排序 排序操作是一个比较常见的操作,尤其是在数据分析的时候,我们往往需要对数据进行排序,hive 中和排序相关的有四个关键字,今天我们就看一下,它们都是什么作用。 数据准备...

同样都是数据处理,为什么同事比我快100倍

现在,几乎所有公司都离不开推荐、广告、搜索这 3 类业务场景,因此 Spark 也相应成了大多数互联网公司的标配。美团在 2014 年就引入 Spark,并将其逐渐覆盖到大多数业务线;字节跳动也基于 ...

聊聊数据仓库建设

数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。 数仓建设思路 数仓主要是围绕着数据使用方与数据开发方诉求进行建设;因此在开...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部