MaxCompute UDF系列之如何判断字符串中是否包含汉字
MaxCompute UDF系列之如何判断字符串中是否包含汉字
时光承诺 发表于4个月前
MaxCompute UDF系列之如何判断字符串中是否包含汉字
  • 发表于 4个月前
  • 阅读 1
  • 收藏 0
  • 点赞 0
  • 评论 0

腾讯云 新注册用户 域名抢购1元起>>>   

摘要: 为了验证字符串中是否包含中文汉字,今天为大家提供一个自动判断中文字符的MaxCompute UDF,下载地址见附件。 效果如下: MaxCompute UDF代码如下: package com.

原文地址

 

为了验证字符串中是否包含中文汉字,今天为大家提供一个自动判断中文字符的MaxCompute UDF,下载地址见附件。

 

效果如下:
 

fd8039d811726e7a6c48a302bb24213ef5426e6b

81720139e07311d9c2260d3596ac13b770056fb9

 

MaxCompute UDF代码如下:

 

package com.yinlin.udf.dev;

import com.aliyun.odps.udf.UDF;
// 根据Unicode编码完美的判断中文汉字和符号
public class Han extends UDF {
  public String evaluate(String inputHan){
  if (inputHan == null) {return inputHan;}
  char[] input = inputHan.trim().toCharArray(); 
   
     for (int i = 0; i < input.length; i++) {
        Character.UnicodeBlock ub = Character.UnicodeBlock.of(input[i]);
        if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
            || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
            || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
            || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
            || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
            || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
            || ub == Character.UnicodeBlock.GENERAL_PUNCTUATION) {
          //System.out.println(input[i]);
          return "1";
        }
     }
    return "0";
  }
}


 

 

 

 

使用方法:

1、通过Eclipse将Han.Java编译成Jar包,命名为han_udf.jar。

 

2、通过大数据开发套件,上传资源han_udf.jar;

59548b443bb62fecdf4be0e3116500b93c4e11be

 

 

3、通过大数据开发套件,引用第二步上传的han_udf.jar资源,注册han函数;

d87860cc56e6df22e410646a4890e5545d75fa3f

4、通过大数据开发套件新建SQL脚本,输入SQL函数进行测试

 

--创建虚拟表
CREATE TABLE IF NOT EXISTS dual (id STRING);
insert into table dual select '1' from (select count(1) from dual) t;


--根据Unicode编码完美的判断中文汉字和符号
select han('yinLin123%') from yinlin_demo.dual limit 1;


--根据Unicode编码完美的判断中文汉字和符号
select han('隐林yinLin123%') from yinlin_demo.dual limit 1;


 

 

 

到此为止,实验完成。

 

常见问题

Q:无结果?

我们在创建虚拟dual表的时候,一定要保证表中有数据。

 

Q:无法找到han函数?

利用大数据开发套件注册han函数的时候需要包名+类名,否则会找不到类。

 

原文地址

标签: 大数据
共有 人打赏支持
粉丝 0
博文 223
码字总数 0
×
时光承诺
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: