【大数据技巧】MaxCompute中实现IP地址归属地转换

2017/04/05 22:54
阅读数 51

大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能,其中应用非常广泛的一种场景就是日志分析。在日志类型数据的清洗转换过程中把IP地址转换为归属地又是极为常见的一种场景。那么利用MaxCompute如何实现IP地址向归属地的转换呢?

俗话说:巧妇难为无米之炊,要实现IP地址与归属地的转换必须要有IP地址库,不过好在互联网上已经有一些资源,而且还提供免费版本的IP数据库下载详见:www.ipip.net(请叫我雷锋^_^)。没错,我们首先要把它下载到本地,命名为ip.dat。

966c42de1df56c9659ce1e097a46cfb77b7bec51

米已经有了,接下来就考虑怎么下厨了。想要在MaxCompute中实现用户自定义逻辑的代码处理,最常用的就是MR和SQL UDF。考虑到大部分用户使用偏好以及工作成果的可重用性,此处我们给大家介绍通过UDF的实现方式。如果客官还对MaxCompute如何实现UDF不熟悉,请自行脑补:https://help.aliyun.com/document_detail/27866.html,文档中都有代码示例。UDF分为三种,分别是UDF、UDAF、UDTF,此处不过多介绍,毫无疑问这种需求场景需要采用第一种实现。

实现用户自定义函数要继承com.aliyun.odps.udf.UDF,具体实现分两个步骤:

一、实现setup方法加载IP地址库数据,并做初始化,代码片段如下图:

注意:ip.dat 的大小,修改ByteBuffer.allocate(),不要溢出,可以大一些;

725caa8d938a365855a4b3c5ab8f90469f638576

二、实现evaluate方法,完成用户数据IP地址到归属地的转换逻辑,代码片段如下图:

99d15f7a6bf4e85ee947d4d55562c33dd311a44c

此处需要注意的是,MaxCompute中是采用UTF-8编码的,为了避免出现中文乱码,我们在输出是可以指定编码方式为UTF-8。

Coding完成后编译打包,命名为getaddr.jar。而后我们需要把ip.dat以及getaddr.jar作为资源上传到MaxCompute项目空间。上传资源可以通过数加DataIDE中向导的方式,也可以通过Console中执行命令的方式。两种方式截图如下:

方式一:

29ce6f3fecfd4a5594eb8f27fb8a99fc5a9dc029

方式二:

9014b54fbf86c287b4b5e6078c6157a7ce5b79bd

资源上传完毕后需要创建Function,在控制台或者数加DataIDE窗口中执行命令,如图:

b3a66e5f21d72def8e73d41a2f12824776868c05

至此,UDF已经实现完成,我们需要做个验证,比如我们可以通过UDF查询116.11.34.15这个IP地址的所属地,如下图:

88ec6dee2f0c956a78bfbad71b5514c001b3358f

准确性验证,如下图:

e4d0df88b623fe7496d10255040f901078829b57

当然准确性一方面是我们解析匹配的逻辑,更重要的也取决于IP地址库本身是否准确。

 

代码下载:https://yq.aliyun.com/attachment/download/?spm=0.0.0.0.TQ3hRZ&filename=GetAddr....[%E9%9A%90%E6%9E%97].1489571623.rar

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部