文档章节

hanlp for elasticsearch(基于hanlp的es分词插件)

kepmov
 kepmov
发布于 2017/08/07 15:16
字数 345
阅读 135
收藏 2

elasticsearch-analysis-hanlp插件地址:https://github.com/pengcong90/elasticsearch-analysis-hanlp

Elasticsearch

默认分词

输出:

IK:

输出:

输入图片说明

hanlp:

输入图片说明

输出:

输入图片说明

ik分词没有根据句子的含义来分词,hanlp能根据语义正确的切分出词

安装步骤: 1、进入https://github.com/pengcong90/elasticsearch-analysis-hanlp,下载插件并解压到es的plugins目录下,修改analysis-hanlp目录下的hanlp.properties文件,修改root的属性,值为analysis-hanlp下的data 目录的地址

2、修改es config目录下的jvm.options文件,最后一行添加

-Djava.security.policy=../plugins/analysis-hanlp/plugin-security.policy

重启es

GET /_analyze?analyzer=hanlp-index&pretty=true { "text":"张柏芝士蛋糕店" } 测试是否安装成功

analyzer有hanlp-index(索引模式)和hanlp-smart(智能模式)

自定义词典:

修改plugins/analysis-hanlp/data/dictionary/custom下的 我的词典.txt文件

格式遵从[单词] [词性A] [A的频次]

修改完后删除同目录下的CustomDictionary.txt.bin文件

重启es服务

目前仅支持5.x版本

注意在mac下5.5.1版本的es中,要删除plugins中.DS_Store隐藏文件,否则启动会报错

© 著作权归作者所有

共有 人打赏支持
kepmov
粉丝 0
博文 1
码字总数 345
作品 0
浦东
NLP自然语言处理基础之hanlp入门

自然语言处理定义: 自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许...

左手的倒影
07/24
0
0
Hanlp中文自然语言处理入门基础知识

自然语言处理定义: 自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许...

adnb34g
07/24
0
0
Python中调用自然语言处理工具HanLP手记

手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 Ha...

伏草惟存
2017/10/16
0
0
汉语言处理包 HanLP 1.6.7 发布,改进人名 UV 拆分

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,...

王练
08/15
0
0
基于python的几种中文分词-词性获取

基于python的几种中文分词-词性获取 根据当前网络上关于中文分词的python包,先取以下四种方式: jieba分词; 清华大学的THULAC; HanLP; pynlpir. 1.测试环境 系统:win10; python版本:pyt...

meiqi0538
05/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

GO 数组相关操作

package mainimport("fmt""math/rand""time")func main() {//数组的几种定义方式var arr1 [3]int = [3]int{1,2,3}var arr2 = [3]int{4,5,6}arr3 := [3]string{"h", "w", ......

汤汤圆圆
22分钟前
0
0
JAVA 中interrupt、interrupted和isInterrupted的区别

首先,我们说明下三个方法的功能 interrupt() 向当前调用者线程发出中断信号 isinterrupted() 查看当前中断信号是true还是false interrupted() 是静态方法,查看返回当前中断信号并将中断信号...

我爱春天的毛毛雨
26分钟前
0
0
Coding and Paper Letter(二十二)

资源整理。 1 Coding: 1.开源项目openeo api。oponEO开发了一个开放的API,以简单统一的方式将R,python和javascript客户端连接到对地观测大数据云平台的后台。 此存储库包含此API,即oponE...

胖胖雕
52分钟前
1
0
RxJS的另外四种实现方式(三)——性能最高的库

接上篇 RxJS的另外四种实现方式(二)——代码最小的库(续) 代码最小的库rx4rx-lite虽然在性能测试中超过了callbag,但和most库较量的时候却落败了,于是我下载了most库,要解开most库性能...

一个灰
今天
4
0
马太效应

马太效应

yizhichao
今天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部