文档章节

MaxCompute UDF系列之如何判断字符串中是否包含汉字

 时光承诺
发布于 2017/08/14 14:27
字数 445
阅读 6
收藏 0

#程序员薪资揭榜#你做程序员几年了?月薪多少?发量还在么?>>>

原文地址

 

为了验证字符串中是否包含中文汉字,今天为大家提供一个自动判断中文字符的MaxCompute UDF,下载地址见附件。

 

效果如下:
 

fd8039d811726e7a6c48a302bb24213ef5426e6b

81720139e07311d9c2260d3596ac13b770056fb9

 

MaxCompute UDF代码如下:

 

package com.yinlin.udf.dev;

import com.aliyun.odps.udf.UDF;
// 根据Unicode编码完美的判断中文汉字和符号
public class Han extends UDF {
  public String evaluate(String inputHan){
  if (inputHan == null) {return inputHan;}
  char[] input = inputHan.trim().toCharArray(); 
   
     for (int i = 0; i < input.length; i++) {
        Character.UnicodeBlock ub = Character.UnicodeBlock.of(input[i]);
        if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
            || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
            || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
            || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
            || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
            || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
            || ub == Character.UnicodeBlock.GENERAL_PUNCTUATION) {
          //System.out.println(input[i]);
          return "1";
        }
     }
    return "0";
  }
}


 

 

 

 

使用方法:

1、通过Eclipse将Han.Java编译成Jar包,命名为han_udf.jar。

 

2、通过大数据开发套件,上传资源han_udf.jar;

59548b443bb62fecdf4be0e3116500b93c4e11be

 

 

3、通过大数据开发套件,引用第二步上传的han_udf.jar资源,注册han函数;

d87860cc56e6df22e410646a4890e5545d75fa3f

4、通过大数据开发套件新建SQL脚本,输入SQL函数进行测试

 

--创建虚拟表
CREATE TABLE IF NOT EXISTS dual (id STRING);
insert into table dual select '1' from (select count(1) from dual) t;


--根据Unicode编码完美的判断中文汉字和符号
select han('yinLin123%') from yinlin_demo.dual limit 1;


--根据Unicode编码完美的判断中文汉字和符号
select han('隐林yinLin123%') from yinlin_demo.dual limit 1;


 

 

 

到此为止,实验完成。

 

常见问题

Q:无结果?

我们在创建虚拟dual表的时候,一定要保证表中有数据。

 

Q:无法找到han函数?

利用大数据开发套件注册han函数的时候需要包名+类名,否则会找不到类。

 

原文地址

本文转载自:http://click.aliyun.com/m/28279/

粉丝 0
博文 225
码字总数 0
作品 0
私信 提问
加载中

评论(0)

MaxCompute - ODPS重装上阵 第三弹 - 复杂类型

摘要: MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提...

阿里云云栖社区
2018/01/12
202
0
阿里云MaxCompute 2019-1月刊

亲爱的开发者们,MaxCompute 2019.1月刊为您带来产品最新动态和丰富的产品技术内容,欢迎阅读。 导读 【新视频】精选视频集锦全新上线 【新故事】精选案例集锦全面更新 【新文档】2019年1月M...

晋恒
2019/02/20
0
0
MaxCompute - ODPS重装上阵 第六弹 - User Defined Type

MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提升SQL...

海清
2019/12/13
0
0
阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171127)

概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方...

隐林
2017/05/05
0
0
MaxCompute Studio使用心得系列6——一个工具完成整个Python UDF开发

2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF,万众期待的功能终于支持啦,我怎么能不一试为快,今天就分享如何通过Studio进行Python udf开发。 前置条件 了解到,...

海清
2017/12/21
0
0

没有更多内容

加载失败,请刷新页面

加载更多

适合小白的Demo_easyui+core3第四章登录

1、先新建个base控制器,作为一个顶层,其他控制器都会集成与baseController base用于获取登录信息的记录 public class baseController : Controller {   public loginlog getbase() {   ...

osc_idh31hqp
26分钟前
17
0
Visual Studio之代码清理(一)

vs2017的格式设置对应vs2019的代码清理: vs2019: 执行代码清理时,可以点击那个扫把小图片,会按照默认的第一种配置文件来自动修复。也可以点击下拉三角符合,选择不同的配置文件,然后进行...

osc_sd3vf5bk
27分钟前
10
0
适合小白的Demo_easyui+core3第四章用户登录

1、添加用户列表控制器,用于用户列表显示,登录,增删改查,邮件发送,下载 public userlistController(MainDbContext _db, ILogger<operatorlog> _logger, IOptions<email> sendMail) {  ......

osc_l4ynn973
29分钟前
24
0
游戏音乐制作中,编曲和作曲的区别

在游戏音乐制作中,不仅有作曲、还有音乐编曲,那么什么是作曲、什么是编曲呢?作曲和编曲到底有什么作用?今天 游戏音乐制作小编一起来和大家聊聊。 游戏作曲,从无到有创作出一段乐曲,这部...

奇亿音乐
29分钟前
22
0
在手机上怎么将图片生成PDF?超实用的文字识别软件!

在手机上怎么将图片生成PDF?在电脑上我们可以通过PDF相关的一些软件将图片转换成PDF文档,但是在手机中要想将图片生成PDF文档就难得多了。今天小编就给大家带来能够将图片迅速生成PDF的一款...

dawda
30分钟前
14
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部