文档章节

MaxCompute UDF系列之如何判断字符串中是否包含汉字

 时光承诺
发布于 2017/08/14 14:27
字数 445
阅读 3
收藏 0

原文地址

 

为了验证字符串中是否包含中文汉字,今天为大家提供一个自动判断中文字符的MaxCompute UDF,下载地址见附件。

 

效果如下:
 

fd8039d811726e7a6c48a302bb24213ef5426e6b

81720139e07311d9c2260d3596ac13b770056fb9

 

MaxCompute UDF代码如下:

 

package com.yinlin.udf.dev;

import com.aliyun.odps.udf.UDF;
// 根据Unicode编码完美的判断中文汉字和符号
public class Han extends UDF {
  public String evaluate(String inputHan){
  if (inputHan == null) {return inputHan;}
  char[] input = inputHan.trim().toCharArray(); 
   
     for (int i = 0; i < input.length; i++) {
        Character.UnicodeBlock ub = Character.UnicodeBlock.of(input[i]);
        if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
            || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
            || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
            || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
            || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
            || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
            || ub == Character.UnicodeBlock.GENERAL_PUNCTUATION) {
          //System.out.println(input[i]);
          return "1";
        }
     }
    return "0";
  }
}


 

 

 

 

使用方法:

1、通过Eclipse将Han.Java编译成Jar包,命名为han_udf.jar。

 

2、通过大数据开发套件,上传资源han_udf.jar;

59548b443bb62fecdf4be0e3116500b93c4e11be

 

 

3、通过大数据开发套件,引用第二步上传的han_udf.jar资源,注册han函数;

d87860cc56e6df22e410646a4890e5545d75fa3f

4、通过大数据开发套件新建SQL脚本,输入SQL函数进行测试

 

--创建虚拟表
CREATE TABLE IF NOT EXISTS dual (id STRING);
insert into table dual select '1' from (select count(1) from dual) t;


--根据Unicode编码完美的判断中文汉字和符号
select han('yinLin123%') from yinlin_demo.dual limit 1;


--根据Unicode编码完美的判断中文汉字和符号
select han('隐林yinLin123%') from yinlin_demo.dual limit 1;


 

 

 

到此为止,实验完成。

 

常见问题

Q:无结果?

我们在创建虚拟dual表的时候,一定要保证表中有数据。

 

Q:无法找到han函数?

利用大数据开发套件注册han函数的时候需要包名+类名,否则会找不到类。

 

原文地址

本文转载自:http://click.aliyun.com/m/28279/

共有 人打赏支持
粉丝 0
博文 225
码字总数 0
作品 0
MaxCompute - ODPS重装上阵 第三弹 - 复杂类型

摘要: MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提...

阿里云云栖社区
01/12
0
0
MaxCompute Studio使用心得系列6——一个工具完成整个Python UDF开发

2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF,万众期待的功能终于支持啦,我怎么能不一试为快,今天就分享如何通过Studio进行Python udf开发。 前置条件 了解到,...

海清
2017/12/21
0
0
阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171127)

概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方...

隐林
2017/05/05
0
0
北京云栖大会MaxCompute又出大招,Python UDF抢先体验!

2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF。 小编第一时间申请到了公测资格,下面就为大家做个简单演示,通过DataWorks注册MaxCompute Python UDF(字符串大小写...

隐林
2017/12/20
0
0
MaxCompute - ODPS重装上阵 第二弹 - 新的基本数据类型与内建函数

摘要: MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提...

阿里云云栖社区
01/11
0
0

没有更多内容

加载失败,请刷新页面

加载更多

linux使用ntfs-3g操作ntfs格式硬盘

Linux内核目前只支持对微软NTFS文件系统的读取。 NTFS-3G 是微软 NTFS 文件系统的一个开源实现,同时支持读和写。NTFS-3G 开发者使用 FUSE 文件系统来辅助开发,同时对可移植性有益。 安装 ...

linuxprobe16
45分钟前
1
0
kubeadm部署kubernetes集群

一、环境要求 这里使用RHEL7.5 master、etcd:192.168.10.101,主机名:master node1:192.168.10.103,主机名:node1 node2:192.168.10.104,主机名:node2 所有机子能基于主机名通信,编辑...

人在艹木中
今天
7
0
Shell特殊符号总结以及cut,sort,wc,uniq,tee,tr,split命令

特殊符号总结一 * 任意个任意字符 ? 任意一个字符 # 注释字符 \ 脱义字符 | 管道符 # #号后的备注被忽略[root@centos01 ~]# ls a.txt # 备注 a.txt[root@centos01 ~]# a=1[root@centos01...

野雪球
今天
2
0
OSChina 周二乱弹 —— 程序员圣衣

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @达尔文:分享Skeeter Davis的单曲《The End of the World》 《The End of the World》- Skeeter Davis 手机党少年们想听歌,请使劲儿戳(这里...

小小编辑
今天
17
0
[ python import module ] 导入模块

import moudle_name ----> import module_name.py ---> import module_name.py文件路径 -----> sys.path (这里进行查找文件) # from app.web import Personimport app.web.Person as Pe......

_______-
昨天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部