加载中
从SQL到HiveQL应改变的几个习惯

2009-10-30 @ taobao 引言 别名 虚拟列 IN INNER JOIN 分号字符 Insert Merge IS [NOT] NULL 引言 HiveQL非常像SQL,但二者并非等价,若不注意期间的一些差异,容易导致HiveQL的语义错误,或...

Gerrit简易安装入门

2011-05-17 @ taobao 简介 Gerrit 是一个基于 Web 的代码评审和项目管理的工具,面向基于 Git 版本控制系统的项目. 官网 背景 下载 文档 下文以gerrit-2.1.7-rc1在Ubuntu10.04上的安装为例:...

只用五分钟为系统实现基于JMX的监控

JMX 早期是作为J2EE的一部分, 因此总给人一种开发起来会很"重"的感觉, 这让不少Java程序员宁愿选择自行实现"轻量级"方案. 时至今日, 借助一些优秀的开源项目, JMX 也可以用起来很"轻". 使用 ...

解决Gerrit无法提交有冲突版本的笨办法

2011-08-31 @ taobao 如果在Gerrit上出现下面的情况: ---- C / ---A----- B A : 是master上一次稳定的版本. B : A之后发现了bug被P1紧急修复的版本, 已通过review并提交到master. C : P2准备...

HiveQL 初级实战

2009-09-22 @ taobao 引言 Hive Shell 进入shell 退出shell 查看已有表 查看表结构 执行查询 数据类型 内建操作符和函数 操作符 RLIKE 函数 类型函数 条件函数 日期函数 聚合函数 引言 本文的...

Why HouseMD

分析Java程序问题的手段有很多, 从屌丝System.out.print, 到高富帅YJP, 再到神器BTrace. 用好它们都能切实的解决问题. 那么为什么会需要HouseMD呢? 主要是上述手段在, 用于高负载的服务器端J...

一个系统过载的案例及其解决办法

系统出现过载现象(或问题)的原因和场景有很多, 这里并不试图归纳总结; 而是如题, 就一个特定的案例, 分享一些过载保护的实践办法. 案例 系统R需要通过轮询(读取)数据库中存储的记录状态, 进行...

Hive运行上下文环境设置

2009-12-02 @ taobao 上下文环境 hive语句执行中, 也可像oracle一样设置一些环境参数的. 环境变量设置: 设置mapreduce的reduce任务数. set mapred.reduce.tasks=300; 设置输出是否压缩 set ...

关于HouseMD

HouseMD的诞生并非一次艳遇的产物, 而是一个酝酿了两年的结晶. 基于AOP的日志调试 日期: 2010-04-06 关键字: TimeTunnel2 2010年我开始参与TimeTunnel2的开发, 目标是为全网日志提供可靠的收...

动态实时跟踪你的java程序

之前有写 基于AOP的日志调试 讨论一种跟踪Java程序的方法, 但不是很完美.后来发现了 Btrace , 由于它借助动态字节码注入技术 , 实现优雅且功能强大. 只不过, 用起来总是磕磕绊绊的, 时常为了...

Hive开发流程

2009-09-26 @ taobao 角色 过程 Developing Smoking Producing 角色 hive应用开发人员(DEV) 负责编写Hivelet(用HiveQL编写的脚本),以满足海量数据处理需求. hive平台管理人员(ADM) 负责提供并...

定制属于你的HouseMD

没有比新增一些更酷的指令, 更让人兴奋的啦~ 要办到它, 得从下面的类入手. Command 像env 这样不需要用到Instrumentation指令, 可以直接继承Command, 将自定义指令的逻辑实现在run方法中. 切...

MAPJOIN

2009-12-8 @ taobao 什么是MAPJOIN MAPJOIN是HiveQL支持的一种Hint, 作用是优化两表join的性能. 其中的原理请google一下"hadoop map side join". 参考示例 SELECT /*+ MAPJOIN(x) */ x.key, ...

提交gerrit只出现一次commit

2011-06-12 @ taobao 对于本地频繁commit后, 提交gerrit进行code review会出现一个太过细节现象, 尤其是一些代码的反复修改其实可以不用展现出来. 可以通过以下笨办法来合并所有的本地commi...

回收DirectByteBuffer

为避免GC的负效应, 使用DirectByteBuffer管理原始(Raw)数据会为高负载的系统带来性能的提升. DirectByteBuffer默认是由GC来回收的, 这通常能够满足需求, 若要想自己控制回收的时机, 可以使用...

Debug Streaming In Hive

2010-04-07 @ taobao Hive由于QL语言自身的限制, 使得某些数据处理的作业还是需要通过streaming交由脚本(如Python)来处理. 海量数据的处理中, 遇到"脏数据"是很常见的, 但其形式又是不可预见...

参数验证其实可以更简明一点

最近在尝试重构一个老系统的代码, 阅读过程中经常发现对方法参数值进行校验的逻辑. 它们看上去会是这样: if (arg1 == null) { throw new IllegalArgumentException("..."); } if (arg2...

2012/07/18 21:10
589
支持配额的共享线程池

受@放翁_文初的<逻辑划分线程池> 一文的启发, 用了几个小时动手实现了一个简陋支持配额的共享线程池. 基本思路与放翁相同, 区别在于引入了两种线程分配策略: 悲观策略 简单的共享一个线程池,...

再也不要自己"轮询"

2009-09-16 @ taobao 引言 你也许已经习惯了等待在SecureCRT提交MapReduce的作业, 然后要么傻傻等待结束的结果, 又或是干别的事情而心中总是惦记着, 时不时"轮询"一下. 我知道你是被迫的, 下...

消息分发的同步均衡策略

TimeTunnel在做消息分发时有这样一个场景: A类消息需要做实时分析, 且量很大, 故它的消费者不会只是一台机器, 而是一组机器, 并要求这组中每台机器收到的消息量应该平均的, 即A消息在某个时刻...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部