加载中
Flink

1、Flink 靠什么征服饿了么工程师? https://mp.weixin.qq.com/s/jCsUJ4HGLcFI1JRhAmeDcg 2、Spark Streaming VS Flink https://mp.weixin.qq.com/s/JYkylUHAxOtzXLcRlCSRZA 3、Flink解析 | ...

2015/05/29 02:24
852
5 分钟从零构建第一个 Apache Flink 应用

在本文中,我们将从零开始,教您如何构建第一个Apache Flink (以下简称Flink)应用程序。 1、开发环境准备 Flink 可以运行在 Linux, Max OS X, 或者是 Windows 上。为了开发 Flink 应用程序...

2013/06/25 22:08
13.5K
OPPO 数据中台之基石:基于 Flink SQL 构建实数据仓库

本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议,分享嘉宾张俊,目前担任 OPPO 大数据平台研发负责人,也是 Apache Flink contributor。 本文主要内容如下: OPPO 实时数仓的...

2013/01/18 01:33
2.2K
分布式(hadoop)内核研发面试指南

本文是同学们进入阿里云等公司的hadoop内核研发岗位的一个指引,需要具备哪些要求,如果不具备则可以往这方面努力。

2013/02/24 13:37
564
有赞埋点实践

一、前言 大数据应用一般会有采集、加工、存储、计算及可视化这几个环节。其中采集作为源头,在确保全面、准确、及时的前提下,最终加工出来的指标结果才是有价值的。 而埋点作为一种重要的采...

数据仓库架构演进与菜鸟实时数据仓库设计

1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 数据仓库...

业务和商业才是技术的驱动力

黄鑫,EGO会员,极光推送CTO兼首席科学家,曾就职于汽车之家、飞信、豆瓣等多家互联网公司,参与多个产品的开发和算法设计。目前负责极光推送产品和研发的工作。 前言 EGO会员群里的各位作为...

2012/09/11 19:58
554
分布式大数据多维分析引擎:Kylin 在百度地图的实践

1. 前言 百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务。 对于Apache ...

2016/05/04 02:26
3.5K
Spark 学习资源收集【Updating】

(一)spark 相关安装部署、开发环境 1、Spark 伪分布式 & 全分布式 安装指南 http://my.oschina.net/leejun2005/blog/394928 2、Apache Spark探秘:三种分布式部署方式比较 http://dongxic...

Windows 安装运行 Apache Kafka 教程

下面是分步指南,教你如何在Windows OS上安装运行Apache Zookeeper和Apache Kafka。 简介 本文讲述了如何在Windows OS上配置并启动Apache Kafka,这篇指南将会指导你安装Java和Apache Zookee...

2012/08/26 02:56
672
Flume NG 简介及配置实战

Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,...

2014/07/08 01:46
56.3K
如何在 1 秒内做到大数据精准去重?

去重计数在企业日常分析中应用广泛,如用户留存、销售统计、广告营销等。海量数据下的去重计数十分消耗资源,动辄几分钟,甚至几小时,Apache Kylin 如何做到秒级的低延迟精确去重呢? 1、什...

2013/03/25 01:30
53.7K
基于堆实现的优先级队列:PriorityQueue 解决 Top K 问题

1、认识 PriorityQueue PriorityQueue是从JDK1.5开始提供的新的数据结构接口,它是一种基于优先级堆的极大优先级队列。优先级队列是不同于先进先出队列的另一种队列。每次从队列中取出的是具...

2013/06/02 04:01
23.6K
用 netstat 查看 TCP 网络状态详解

一、Linux服务器上11种网络连接状态: 图:TCP的状态机 通常情况下:一个正常的TCP连接,都会有三个阶段:1、TCP三次握手;2、数据传送;3、TCP四次挥手 注:以下说明最好能结合”图:TCP的状态机”来...

2013/01/19 22:13
1K
深入 Apache Kylin Cube 与查询优化

近几年,Apache Kylin作为一个高速的开源分布式大数据查询引擎正在迅速崛起。它充分发挥Hadoop、Spark、HBase等技术的优势,通过对超大规模数据集进行预计算,实现秒级甚至亚秒级的查询响应时...

2012/09/18 14:37
1K
Yarn(MapReduce 2.0)下分布式缓存(DistributedCache)的注意事项

1、问题 最近公司的集群从 Apache hadoop 0.20.203 升级到了 CDH 4,迈进了 Hadoop 2.0 的新时代,虽然新一代的 hadoop 努力做了架构、API 上的各种兼容, 但总有“照顾不周”的地方,下面说...

2014/03/08 02:35
3.8K
hive文件存储格式

hive在建表是,可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式 例如: > CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ...

2012/10/11 13:52
711
分布式消息系统 Kafka 简介

Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。 ...

2014/08/19 02:22
1K
SparkContext 初始化内部原理

如果编写Spark程序,那么第⼀⾏代码就是new SparkContext().setMaster(“”).setAppName(“xx”),可以说SparkContext是整个Spark 计算的启动器,只有将sparkContext 启动起来,后续的关于调 ...

2012/11/12 23:08
685
Php提升效率优化技巧

确实很有用的,大家平常开发中应该注意下 0、用单引号代替双引号来包含字符串,这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量,单引号则不会,注意:只有echo能这么做,它是一...

2012/10/02 14:49
520

没有更多内容

加载失败,请刷新页面

返回顶部
顶部