加载中
性能优化技巧:前半有序时的排序

一、 问题背景与适用场景 在对数据集进行排序运算时,有时会遇到这样一种场景:数据集T已经按字段a有序,而字段b无序,现在我们要将T按a、b排序,我们称之为前半有序(a有序)的排序。此时我们...

01/31 14:05
48
性能优化技巧:后半有序分组

一、 问题背景与适用场景 什么是后半有序?如果数据集T已经按字段a、b有序,现在我们要将T按b排序或分组时,因为在a值相同的段内,b都是有序的,这种要排序或分组的字段在分段内有序的情况就...

01/31 14:02
15
性能优化技巧:有序分组

一、 问题背景与适用场景 通常分组计算都采用hash方案,即先计算分组字段的hash值,hash值相同的记录被分拣到一个小集合里,然后在这个小集合中遍历找分组字段值相同的聚合成一组。分组的复杂...

01/31 13:58
22
性能优化技巧:大事实表与大维表关联

一、 问题背景与适用场景 在《性能优化技巧:小事实表与大维表关联》中,我们尝试了小事实表与大维表关联时的性能优化方法,该方法利用了小事实表可以装入内存的特点,将关联键汇集排序后到大...

01/31 13:55
35
性能优化技巧:小事实表与大维表关联

一、 问题背景与适用场景 在主子表关联查询中,有时会遇到这样一种情况:按条件过滤后的事实表数据量很小,能够全部装载进内存或仅比内存略大一点;而要关联的维表数据量很大,比内存要大很多...

01/31 13:52
87
性能优化技巧:附表

一、 问题背景与适用场景 在《性能优化技巧:有序归并》中我们见证了有序归并算法提升主子表的关联性能,在集算器中,还有进一步提高性能的办法—附表。集算器组表支持主子表保存在同一文件中...

01/31 13:48
18
性能优化技巧:有序定位关联提速主子关联后的过滤

一、 问题背景与适用场景 在《性能优化技巧:有序归并》中我们验证了有序归并算法提高关联性能的效果,那么还有没有进一步提升的空间呢?能不能再减少数据的读取量从而再提速呢? 通常主子关...

01/22 21:08
184
性能优化技巧:有序归并

一、 问题背景与适用场景 在以前的文章中我们介绍过,关系数据库在进行表间关联时是使用HASH分段技术。设两个关联表的规模(记录数)分别是 N 和 M,则 HASH 分段技术的计算复杂度(关联字段...

01/22 21:06
198
性能优化技巧:维表过滤或计算时的关联

在事实表与维表的关联查询时,常常会遇到需要对维表的数据进行过滤或者针对维表做计算的情况,这时可以有两种处理方式: 1、先做关联(如果是内存则可以是预关联),再对关联后的事实表进行过...

01/22 20:51
164
多维分析后台实践 3:维度排序压缩

【摘要】 用实例、分步骤,详细讲解多维分析(OLAP)的实现。点击了解多维分析后台实践 3:维度排序压缩 实践目标 本期目标,是在完成数据类型转化基础上,实现维度排序压缩,进一步提升计算...

多维分析后台实践 2:数据类型优化

【摘要】 用实例、分步骤,详细讲解多维分析(OLAP)的实现。点击了解多维分析后台实践 2:数据类型优化 实践目标 本期目标是练习将数据库读出的数据,尽可能转换为有利于性能优化的数据类型...

01/22 20:42
167
性能优化技巧:外键序号化

一、 问题背景与适用场景 在《性能优化技巧:部分预关联》一文中,我们介绍了将维表内存化并预关联的技术,但事实表与维表关联时,仍需进行hash计算和比对,怎么提高这一步的性能呢?我们今天...

01/12 18:45
182
性能优化技巧:部分预关联

一、 问题背景与适用场景 在《性能优化技巧:预关联》中,我们测试了将数据表事先全部加载进内存并做好关联后的查询性能优化问题,但如果内存不够大,不能将维表和事实表全部装入,那怎么办呢...

01/12 18:22
177
性能优化技巧:预关联

一、 问题背景与适用场景 SQL中JOIN的性能是个老大难问题,特别是关联表较多时,计算性能会急剧下降。 SQL实现JOIN一般是采用HASH分堆的办法,即先计算关联键的HASH值,再将相同HASH值的记录...

01/12 18:13
184
性能优化技巧:TopN

TopN是常见的运算,用SQL写出来是这样(以Oracle为例): select * from (select * from T order by x desc) where rownum<=N 这个SQL的运算逻辑从其语句上看,要先做排序(Order by),然后...

01/12 17:13
239
性能优化技巧:遍历复用提速多次分组

我们知道,大数据运算性能的瓶颈常常是在外存(也就是硬盘)IO上,因为外存访问性能要比内存低一两个数量级。因此,做性能优化时,减少硬盘的访问量有时要比减少CPU计算量更为重要。同一个任...

01/12 17:01
165
多维分析后台实践 1:基础宽表

【摘要】 用实例、分步骤,详细讲解多维分析(OLAP)基础宽表的实现。点击了解多维分析后台实践 1:基础宽表 实践目标 本期目标是练习如何搭建多维分析后台的基础宽表,并通过 SPL 和 SQL 访...

01/08 16:16
190
SQL 和 SPL 的有序运算对比

【摘要】 有序运算是指按照一定的次序对有序集合的成员进行计算。SQL 和 SPL 是大家比较熟悉的程序语言,本文将探讨对于有序运算问题,这两种语言的解决方案和基本原理。如何简便快捷的处理有...

01/08 16:01
183
枚举维度与二值维度切片的优化

【摘要】 多维分析(OLAP)中常见的枚举维度切片(过滤条件 in)和二值维度(是否型过滤条件)如何优化?点击了解枚举维度与二值维度切片的优化 问题描述 多维分析(OLAP)系统的汇总和切片,...

01/08 15:55
160
循环运算

【摘要】 循环运算是指按照一定的次序对集合的成员进行计算。除了在循环中访问当前成员、对成员赋值等简单的计算,还有在循环中进行跨行计算、嵌套循环、迭代运算等复杂需求。如何简便快捷的...

01/08 15:43
205

没有更多内容

加载失败,请刷新页面

返回顶部
顶部