加载中
大数据统计之基数估计(Cardinality Estimation)

1、解读Cardinality Estimation算法(第一部分:基本概念) http://blog.codinglabs.org/articles/cardinality-estimation.html 2、解读Cardinality Estimation算法(第二部分:Linear Coun...

2014/08/03 00:29
2.4K
如何实现海量数据下有序漏斗秒查

近期易观公司举办了一个OLAP大赛,我们队伍非常荣幸地获得了第一名,成为本次比赛最大黑马。此篇文章主要分享一下我们是如何解决有序漏斗秒查问题的 比赛地址:2017易观OLAP算法大赛 参赛情况...

2013/03/30 01:25
4.5K
如何在 1 秒内做到大数据精准去重?

去重计数在企业日常分析中应用广泛,如用户留存、销售统计、广告营销等。海量数据下的去重计数十分消耗资源,动辄几分钟,甚至几小时,Apache Kylin 如何做到秒级的低延迟精确去重呢? 1、什...

2013/03/25 01:30
5.8W
使用搜索技术实现 URL 智能匹配

所谓URL智能匹配,简单来说,就是要在内存中实现一个微型的搜索引擎。为了便于说明,假设需要识别的只有以下这5个网站,网站名称对应搜索引擎中的术语是“文档”,每个文档都有其对应的ID、文...

2013/01/12 18:06
2.6K
程序设计中的计算复用(Computational Reuse)

从斐波那契数列说起 我想几乎每一个程序员对斐波那契(Fibonacci)数列都不会陌生,在很多教科书或文章中涉及到递归或计算复杂性的地方都会将计算斐波那契数列的程序作为经典示例。如果现在让...

2012/10/04 18:02
2K
关于腾讯的一道字符串匹配的面试题

Question: 假设两个字符串中所含有的字符和个数都相同我们就叫这两个字符串匹配, 比如:abcda和adabc,由于出现的字符个数都是相同,只是顺序不同, 所以这两个字符串是匹配的。要求高效! ...

2012/09/16 00:33
2K
基于正态分布指定范围内的随机数生成算法

1、需求背景 生成一个范围(n到m,例如100到150)的随机数,但不是纯粹随机(均匀分布)的,想要的结果是基于正态分布。另外想要数字“聚集”在125左右。 生成符合正太分布的随机数不难,但是如...

2012/09/05 18:33
2.4K
BitMap 的基本原理和实现

前言 文章是自己写了后先发到了公众号里,再转到了内部的KM。算是一个系列的学习笔记,一篇篇来。 本篇是大数据算法系列 第一篇《BitMap的原理和实现》,BitMap 的思想的和原理是很多算法的基...

「Python 算法实战」:栈

栈(stack)又称之为堆栈是一个特殊的有序表,其插入和删除操作都在栈顶进行操作,并且按照先进后出,后进先出的规则进行运作。 如下图所示 例如枪的弹匣,第一颗放进弹匣的子弹反而在发射出去...

2012/07/23 23:04
4.9K
10 分钟入门 AST 代码优化与修改

张大胖一上班,领导就扔了一个任务给他,把项目中的JavaScript代码做点“小小”的改变: 1. 把 == 改为全等 === 2. 把parsetInt不标准的调用改为标准用法 parseInt(xxx)-> parseInt(xxx,10)...

2012/06/29 17:42
1.1W

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部