hadoop下Illegal partition for问题处理

原创
2014/03/11 12:56
阅读数 318

1.背景:

    对一个文件中的key进行过滤,需要过滤的key存储在另一个文件中。需要过滤的key数量很大,有上亿条,因此采用bloomfilter等方法不太合适。同时文件中的带过滤的key可能会很多也可能很少。因此采用value二次排序的方法过滤,将需要过滤的key做成key0,真实的key做成key1。使用分区函数和key比较函数将相同的key发送到同一个机器上,只要判断key的第一个key值key0是否存在就可以确定key是否需要过滤。

2.问题:

    采用二次排序,需要实现getPartition函数。考虑到hash函数可能返回负数,因此返回是使用了这样一个函数Math.abs(k)%numReduceTasks。  一开始测试的时候没有发现问题,后来将输入文件增多后发现程序会报Illegal partition for错误。

3.处理过程:

    直接求助google, 从http://blog.csdn.net/hezuoxiang/article/details/6878026 中看出来,错误是因为分区函数返回了负数,这个值不合理。一时有点懵,难道Math.abs(x)返回的不是正数?再次求助google,http://blog.sina.com.cn/s/blog_71643cb101012442.html 明白了原来x很大(溢出变成负数)或者很小的负数时,即超过了int的表示范围。返回会是个负数。至此,知道了问题的关键,通过hash得到的k值太大,或者太小,超过了int的可表示范围。嗯,c/c++程序员用java写hadoop就是一堆坑要踩。

4.解决方法:

    (1) 换一个hash函数,使得hash值在int能表示的范围内。

     (2) 对hash函数的值先取模在取绝对值 Math.abs(k % numReduceTasks);。
 



展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部