文档章节

Spring Boot中对自然语言处理工具包hanlp的调用详解

左手的倒影
 左手的倒影
发布于 11/21 11:02
字数 967
阅读 12
收藏 3

概 述

HanLP 是基于 Java开发的 NLP工具包,由一系列模型与算法组成,目标是普及自然语言处理在生产环境中的应用。而且 HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点,因此十分好上手,本文就结合 Spring Boot来将 HanLP用起来!

下载 HanLP数据和程序

由于 HanLP库将数据与代码分离,因此我们需要分别下载所需数据和 jar包:

(1)所需 data数据包下载地址为 data.zip

(2)所需 jar包下载地址为 hanlp-release.zip

工程搭建

(1)创建一个普通的 Spring Boot工程,不赘述

(2)引入 HanLP数据 和 配置

下载完成以后,首先解压 hanlp-release.zip压缩包,然后将解压出的 HanLP的 jar包引入 Spring Boot工程,然后需要来放置 HanLP所需配置和数据:

(1)将解压后 hanlp-release.zip压缩包中的 hanlp.properties配置文件置于项目的 resources资源目录下

(2)然后解压 data.zip压缩包,将解压出的 data目录同样至于 resources目录下( data 中的数据包很重要,是 HanLP工作所需的词典和模型 )

创建 IO适配器

HanLP 提供了IO适配器,用户可以实现其提供的 com.hankcs.hanlp.corpus.io.IIOAdapter 接口以在不同的平台(HDFS、Redis等)上运行HanLP,默认的 IO适配器 IOAdapter = com.hankcs.hanlp.corpus.io.FileIOAdapter 是基于普通文件系统的。

接下来我们重写一下 IOAdapter类,使用读写静态资源文件的方法来读取HanLP所需的词典和模型数据( 即resources目录下刚放置的 data目录 )

然后我们配置一下 HanLP的配置文件hanlp.properties,有两处需要改为以下配置:

root=   // 我们不再需要这种指定data目录的方式

IOAdapter=cn.codesheep.springbt_hanlp_userdefine.config.ResourceFileIoAdapter // 指定自定义的IOAdapter

好,现在项目就可以工作了,我们接下来写几个测试用例测试体验一把 !

实验测试

随便写几个例子来感受一番:

  • 分词功能

@Test

public void testSegment() {

    System.out.println( HanLP.segment("www.codesheep.cn是一个技术博客!") );

}

分词结果如下:

[www/nx, ./w, codesheep/nx, ./w, cn/nx, 是/vshi, 一个/mq, 技术/n, 博客/n, !/w]

每个词段后的 /nx,/w之类的是 HanLP定义的词性,可以去看 HanLP的接口来获取详情

  • 文本推荐

三个关键字的语句推荐结果为:

机器学习  →  [人工智能如今是非常火热的一门技术”]

危机公共  →  [威廉王子发表演说 呼吁保护野生动物]mayun     →  [《时代》年度人物最终入围名单出炉 普京马云入选]

  • 关键字提取

@Test

public void testKeyExtract() {

String content = "苹果公司(Apple Inc. )是美国一家高科技公司。由史蒂夫·乔布斯、斯蒂夫·沃兹尼亚克和罗·韦恩(Ron Wayne)等人于1976年4月1日创立," + "并命名为美国苹果电脑公司(Apple Computer Inc. ),2007年1月9日更名为苹果公司,总部位于加利福尼亚州的库比蒂诺。"; List<String> keywordList = HanLP.extractKeyword(content, 5); System.out.println(keywordList);

提取结果为:

[公司, 苹果, 美国, Inc, Apple]

体验一番我们发现其自带的模型、字典等数据给出的实验效果已经是非常不错了,而且用户还可以自定义或修改 data目录下的模型、字典等数据来满足特定需求,因此还是十分强大的。

作者:CodeSheep
來源:简书

 

© 著作权归作者所有

共有 人打赏支持
左手的倒影
粉丝 5
博文 86
码字总数 101267
作品 0
青岛
程序员
私信 提问
自然语言处理工具包 HanLP在 Spring Boot中的应用

本文共 782字,阅读大约需要 2分钟 ! --- 概 述 HanLP 是基于 Java开发的 NLP工具包,由一系列模型与算法组成,目标是普及自然语言处理在生产环境中的应用。而且 HanLP具备功能完善、性能高...

CodeSheep
11/01
0
0
自然语言处理之:搭建基于HanLP的开发环境(转)

环境搭建比FNLP的简单,具体参考:https://github.com/hankcs/HanLP 各个版本的下载:https://github.com/hankcs/HanLP/releases 完毕后有一个报错: 字符类型对应表加载失败: D:/eclipse_wo...

左手的倒影
11/09
0
0
Python中调用自然语言处理工具HanLP手记

手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 Ha...

伏草惟存
2017/10/16
0
0
NLP自然语言处理基础之hanlp入门

自然语言处理定义: 自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许...

左手的倒影
07/24
0
0
Hanlp中文自然语言处理入门基础知识

自然语言处理定义: 自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许...

adnb34g
07/24
0
0

没有更多内容

加载失败,请刷新页面

加载更多

VMware前路难测,多个厂家群雄逐鹿

在人们高谈Salesforce、亚马逊等新兴云计算厂商取得的成就时,以VMware、HPE和Cisco为代表的老牌厂商也在进行着自己的转型和变化,而且还取得一定的进展。以VMware为例,虚拟机巨头公布了第二...

linux-tao
6分钟前
0
0
Palindrome Linked List(leetcode234)

Given a singly linked list, determine if it is a palindrome. Example 1: Input: 1->2Output: false Example 2: Input: 1->2->2->1Output: true Follow up: Could you do it in O(n) ......

woshixin
8分钟前
0
0
【宇润日常疯测-003】PHP 序列化和 JSON 哪个更好?

有了 Swoole 以后,用我们熟悉的 PHP 就可以很方便地开发网络通信应用。有时候我们系统内部需要交换数据,那么,这时候问题来了,网络通讯的数据格式是选择 JSON 还是 serialize 呢? 一通分...

宇润
9分钟前
1
0
mybatis批量操作sql配置

在写批量sql操作时,遇到执行报错: <foreach collection="list" item="item" index="index" separator=";"> update t_xxx set column1=#{item.column1} where id= #{item.id} </foreach> 分......

lar555
21分钟前
2
0
L2TP VPN客户端配置

打开网络设置-->选择VPN-->添加VPN链接 配置完毕,打开更改适配器选项 右键-->属性 选中安全---允许使用安全协议,确定保存后连接vpn即可

阿伦哥-
25分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部