加载中
Mac airflow 开发环境搭建

在 macOS 上搭建 Apache Airflow 开发环境可以通过以下步骤完成。我们将使用 pip 来安装 Airflow,并设置一个简单的开发环境。 1. 安装依赖 确保已经安装了 Homebrew 和 Python 3。如果尚未安...

11/28 17:53
82
电商数据应用体系建设总结(三)—— 离线数据兜底方案

背景 目前我们使用Lambda架构来处理数据,Flink处理实时数据,Spark处理离线数据。Spark离线任务在每天凌晨的0-8点调度执行,在这段时间内,用户是看不到昨日未产出的离线数据的,数据应用对...

电商数据应用体系建设总结(二)—— 数据应用层架构介绍和规范总结

数据经过ETL、存储等数据处理过程之后,通过数据应用产品的形式呈现给最终使用方,PC和APP类数据产品以各类不同用途的数据大屏、看板将数据指标展示给管理者、运营和业务人员,数据应用后端也...

电商数据应用体系建设总结(一)—— 数据应用架构剖析

什么是数据应用 数据应用是通过各种各样的数据分析方式将数据展示出来,给决策者、管理者、运营等人员透传数据价值的工具,帮助决策者、管理者及时调整战略目标、公司目标、业务目标,帮助运...

滴滴 x StarRocks:极速多维分析创造更大的业务价值

滴滴集团作为生活服务领域的头部企业,正在全面测试和上线StarRocks,其中橙心优选经过一年多的数据体系建设,我们逐渐将一部分需要实时交互查询、即席查询的多维数据分析需求由ClickHouse迁...

HDFS 客户端读写超时时间解析

背景 前段时间我们Hadoop集群磁盘使用率比较高,部分硬盘空间使用超过了70%,这部分服务器的DataNode服务读写负载就比较高,造成部分数据同步任务因为读写超时而失败。具体场景和异常跟这篇博...

Redis AOF重写阻塞问题分析

问题背景 某个业务线使用Redis集群保存用户session数据,数据量大约在4千万-5千万,每天发生3-4次AOF重写,每次时间持续30-40秒,AOF重写期间出现Redis主进程阻塞,应用端响应超时的问题。 ...

ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析(三)

这个问题又让我们碰到了,发生次数不频繁但是一旦发生就会造成ResourceManager服务崩溃、ZK注册watch过多等问题。不彻底解决这个问题心中一直是个梗,所以基于前两次的分析和阅读社区最新版H...

大压缩文件对Impala查询性能的影响

Hadoop/HDFS/MapReduce/Impala被设计用于存储和处理大量文件的场景,比如TB或者PB级别数据量的文件。大量小文件对查询性能有很大的影响,因为NameNode要保存大量的HDFS文件元数据,一次性查询...

一次Impala upsert Kudu执行缓慢问题排查总结

问题背景 BI同学会用Impala在Kudu表上跑一些ETL任务,最近,BI同学反馈一个Kudu表的ETL任务突然变慢,执行时间从原来的不到1分钟到现在的7分钟。 解决过程 下文中提到的软件环境为: Impala...

YARN Fair Scheduler批量分配功能调优总结

背景 YARN调度效率不高,队列资源充足,集群中正在运行的任务数量少,资源利用率低的情况下有一部分任务排队,等待分配资源时间长。 注:我们的集群使用的是Apache Hadoop 2.6.3,以下内容以...

一步一步理解Impala query profile(四)

在本系列的第三部分,我使用了一个示例来详细地介绍Impala query profile。在这一部分中,我将使用一个真实生产系统的Impala Profile文件,解释我在遇到问题时阅读Profile文件的步骤,并逐渐...

利用反射实现状态同步

Java反射使我们能在程序运行时动态调用某个对象的方法/构造函数、获取某个对象的属性,经常用于实现动态代理、工厂模式、Java JDBC加载连接驱动类等,近期阅读开源项目源码发现,它还有一种重...

一步一步理解Impala query profile(三)

在本博客系列的第3部分,我将仍然关注查询计划(Query Plan)和执行摘要(Execution Summary),但是将使用真实数据(Kaggle’s Flights Delay database),来执行一个更复杂的查询。 测试用...

一步一步理解Impala query profile(二)

在上一篇文章中,我们介绍了Impala query profie的概要部分,在本篇文章我们介绍Profile的查询计划(Query Plan)和执行概要(Execution Summary)部分。 Profile的查询计划和执行概要如下所...

一步一步理解Impala query profile(一)

很多Impala用户不知道如何阅读Impala query profile来了解一个查询背后正在执行的操作,从而在此基础上对查询进行调优以充分发挥查询的性能。因此我想写一篇简单的文章来分享我的经验,并希望...

优化ORC和Parquet文件,提升大SQL读取性能

本文编译自IBM开发者社区,主要介绍了HDFS中小的ORC和Parquet文件的问题,以及这些小文件如何影响Big SQL的读取性能,并探索了为了提高读取性能,使用现有工具将小文件压缩为大文件的可能解决...

YARN任务监控界面Aggregate Resource Allocation指标解析

在YARN的原生任务监控界面中,我们经常能看到Aggregate Resource Allocation这个指标(图中高亮选中部分),这个指标表示该任务拥有的所有container每秒所消耗的资源(内存、CPU)总和: Ag...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部