加载中
iPython Notebook安装和初体验

看到 Python 大神到处炫的 ipynb 文件,下载到手上不知所措,今天终于发现了这个 Python 学习牛哄哄的工具:IPython Notebook是Web based IPython封装,可以展现富文本,使得整个工作可以以笔记...

2017/03/02 17:31
149
Pig On Tez, Pig 换 Tez 执行引擎

Tez 安装件上一篇文章: https://my.oschina.net/zhzhenqin/blog/781670 Tez On Yarn 安装成功后,是为了给 Hive 或者 Pig 提供执行引擎。 安装 Pig 下载地址: http://apache.fayea.com/pi...

2016/11/21 13:13
80
Hive On Tez,Tez 和 MapReduce engine 性能对比

无意中接触 Tez,经过测试, Hive On Tez 的执行效率高于 MR 数倍。此文主要提供给 Hive 用户另一种提高 HQL 执行效率的方法。

2016/11/04 15:41
495
Apache Tez 安装, Tez On Yarn

偶然机会接触到 Tez,发现 Hive 使用 Tez 引擎性能比 MapReduce 好很多,因此测试了 Hive,Pig 等对 Tez 的支持。此文后续会介绍 Hive,Pig 等使用 Tez 引擎执行,性能会比传统的 MapReduce ...

2016/11/04 13:48
306
Hive-explode[列转行]关键字使用

本文讨论 Hive explode 关键字使用, 并使用一个简单案例来验证结果. explode 是 Hive 有效的行转列关键字实现, 不同于传统数据库, 属于 HQL 特有方言....

2016/01/14 18:06
2.2K
从 Word 到 Docbook, 最后用 Pandoc, 让程序员爱上写文档

写文档一直是程序员非常讨厌的工作, 甚至和改需求一样令人厌烦. 在程序员眼里比写程序还难, 即便强制执行下来文档质量也很难让人满意.

Twitter Storm Stream Grouping编写自定义分组实现

Storm 提供很多有用的数据分组实现,但是有时又不完全适应我们,Storm支持自定义分组实现,那么如何编写一个自己的实现。?本篇Blog将为读者从源发分析Storm的数据分组实现,并和Hadoop Part...

Twitter Storm, 数据流分组策略,fieldsGrouping

复杂的消息流处理往往需要很多步骤, 从而也就需要经过很多Bolts。经过多个Blot之间Storm会用不同的方式分组数据,下面的文章分别解释不同的分组策略和重点介绍的fieldsGrouping。...

2014/04/14 09:21
2.1K
Twitter Storm进阶初步,Storm能做什么

本篇Blog是一个简单的Storm入门例子,提供一个简答Storm运行例子,目的让读者明白Storm是怎样的运行机制,适合做什么。

Hadoop-2.2.0 Linux 64位系统本地库编译

提供Hadoop 2.2.0 64位本地库编译

2013/12/11 13:17
1K
Hadoop Job的提交,到底提交了什么?

##一个最基本的Hadoo任务 WordCountMapper: <pre class="prettyprint lang-java"> private final static IntWritable one = new IntWritable(1); @Override public void map(LongWritable k...

2013/09/22 19:30
6.6K
多语言跨平台序列化框架Google Protobuf-Python connect Netty

##Python Protobuf模块安装 在[text][https://pypi.python.org/pypi]下载protobuf-2.5.0.tar.gz. 注意,该<code>protobuf-2.5.0.tar.gz</code>和上一节下载的文件名相同,但内容不一样. 上一节...

2013/08/26 15:45
1K
多语言跨平台序列化框架Google Protobuf-with Netty

##protoc安装 下载Protobuf [Protobuf][https://code.google.com/p/protobuf/] 我下载的是Protobuf 2.5.0版本. 如果是Windows系统,可直接下载win32, 解压出protoc.exe到任意目录.Linux系统下...

2013/08/26 15:43
5.3K
多语言跨平台远程过程调用【Avro】

##开始 Avro是Apache的Hadoop家族的项目之一。具有性能高、基本代码少和产出数据量精简等特点。不过这是他们宣传广告,我最近也分别研究了Avro和Protobuf。基本的测试代码,不吐不快。 ##安装...

2013/08/07 20:48
5.8K
Pig的输入输出及foreach,group关系操作

前面两篇介绍了Pig的工作以及简单的程序逻辑,从这篇开始,不再只是统计词频这样的例子了。我会相对的举出一些特殊场景加以说明。 需要说的是我也是一个Pig初学者,之前学习了一些Hadoop,在...

2013/04/21 22:33
4K
关于ObjectOutputStream内存溢出和JVisualVM堆分析使用

最近做公司后台的关于数据同步的功能, 考虑到同步的速度和可控性,再者在自己的项目中已经打开了ServerSocket.因此决定自己编写Socket,两边进行数据同步. 因为写一个通信协议是不容易的事,我也...

2013/04/18 20:13
2.7K
Pig数据模型及Order,Limit关系操作

上一篇博客主要讲解了Pig的安装和一个试手的例子,下面说一下Pig的数据模型。 Pig的数据模型基本分为2大类,基本类型,和复杂类型。基本类型只能包含一个简单的数值,复杂类型可以包含其他所...

2013/04/15 20:32
3.9K
Pig安装及本地模式测试,体验

Pig是Apache的一个开源项目,用于简化MapReduce的开发。研究了一段时间,略有心得。系废话不多说,我们直接步入实际测试。 Pig的运行有两种模式,本地单击模式和集群模式。我目前只是测试学习...

2013/04/14 22:16
3.8K
MongoDB高级查询[聚合Group]

接上一篇... 见: http://my.oschina.net/zhzhenqin/blog/97949 Group 为了方便我还是把我的表结构贴上来: 和数据库一样group常常用于统计。MongoDB的group还有很多限制,如:返回结果集不能超...

2013/01/04 13:01
37.2K
MongoDB高级查询[聚合]

因为最近测试MongoDB,也算是熟悉了MongoDB吧。MongoDB还算简单,在短短一周我就掌握了很多内容。相对于其他数据库这个确实容易多了。 我安装的: MongoDB版本为:2.0.8 系统为:64位Ubuntu ...

2012/12/24 21:21
8.1K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部