文档章节

ElasticSearch安装ik分词插件

萧十一郎君
 萧十一郎君
发布于 2014/05/03 21:46
字数 826
阅读 35464
收藏 22

一、IK简介

    IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词 歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。  

    IK Analyzer 2012特性:

    1.采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;

    2.在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。

    3.2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

    4.采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符

    5.优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。


二、安装IK分词插件

    假设读者已经安装好ES,如果没有的话,请参考ElasticSearch入门 —— 集群搭建。安装IK分词需要的资源可以从这里下载,整个安装过程需要三个步骤:

    1、获取分词的依赖包

    通过git clone https://github.com/medcl/elasticsearch-analysis-ik,下载分词器源码,然后进入下载目录,执行命令:mvn clean package,打包生成elasticsearch-analysis-ik-1.2.5.jar。将这个jar拷贝到ES_HOME/plugins/analysis-ik目录下面,如果没有该目录,则先创建该目录。

    2、ik目录拷贝

    将下载目录中的ik目录拷贝到ES_HOME/config目录下面。

    3、分词器配置

    打开ES_HOME/config/elasticsearch.yml文件,在文件最后加入如下内容:

index:
  analysis:                   
    analyzer:      
      ik:
          alias: [ik_analyzer]
          type: org.elasticsearch.index.analysis.IkAnalyzerProvider
      ik_max_word:
          type: ik
          use_smart: false
      ik_smart:
          type: ik
          use_smart: true
index.analysis.analyzer.default.type: ik

    ok!插件安装已经完成,请重新启动ES,接下来测试ik分词效果啦!

三、ik分词测试

    1、创建一个索引,名为index。   

curl -XPUT http://localhost:9200/index

    2、为索引index创建mapping。

curl -XPOST http://localhost:9200/index/fulltext/_mapping -d'
{
    "fulltext": {
             "_all": {
            "analyzer": "ik"
        },
        "properties": {
            "content": {
                "type" : "string",
                "boost" : 8.0,
                "term_vector" : "with_positions_offsets",
                "analyzer" : "ik",
                "include_in_all" : true
            }
        }
    }
}'

    3、测试

curl 'http://localhost:9200/index/_analyze?analyzer=ik&pretty=true' -d '
{
"text":"世界如此之大"
}'

    显示结果如下:

{
  "tokens" : [ {
    "token" : "text",
    "start_offset" : 4,
    "end_offset" : 8,
    "type" : "ENGLISH",
    "position" : 1
  }, {
    "token" : "世界",
    "start_offset" : 11,
    "end_offset" : 13,
    "type" : "CN_WORD",
    "position" : 2
  }, {
    "token" : "如此",
    "start_offset" : 13,
    "end_offset" : 15,
    "type" : "CN_WORD",
    "position" : 3
  }, {
    "token" : "之大",
    "start_offset" : 15,
    "end_offset" : 17,
    "type" : "CN_WORD",
    "position" : 4
  } ]
}


参考资料

    https://github.com/medcl/elasticsearch-analysis-ik


欢迎转载,请注明出处:http://my.oschina.net/xiaohui249/blog/232784

© 著作权归作者所有

共有 人打赏支持
萧十一郎君

萧十一郎君

粉丝 62
博文 34
码字总数 19501
作品 0
昌平
程序员
私信 提问
加载中

评论(15)

F
FrankLee6
不太懂git命令,请指教下
F
FrankLee6
请问下如何下载到旧版本的ik?
chinawphuang
chinawphuang
我也有同样的疑问?
index:
analysis:
analyzer:
ik:
alias: [ik_analyzer]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
ik_max_word:
type: ik
use_smart: false
ik_smart:
type: ik
use_smart: true

or

index.analysis.analyzer.default.type: ik
在github上,而你这里是一起的,具体是什么区别?
chinawphuang
chinawphuang

引用来自“yinhex”的评论

文章我阅读了,但是有个疑问:
3、分词器配置

打开ES_HOME/config/elasticsearch.yml文件,在文件最后加入如下内容:


这里github是or 你却放在一起,到底正确么.还有你的ES版本是多少?在哪来可以看到ES 和IK的版本对应的?
我也有同样的疑问? index: analysis: analyzer: ik: alias: [ik_analyzer] type: org.elasticsearch.index.analysis.IkAnalyzerProvider ik_max_word: type: ik use_smart: false ik_smart: type: ik use_smart: true or index.analysis.analyzer.default.type: ik 在github上,而你这里是一起的,具体是什么区别?
chinawphuang
chinawphuang

引用来自“yinhex”的评论

文章我阅读了,但是有个疑问:
3、分词器配置

打开ES_HOME/config/elasticsearch.yml文件,在文件最后加入如下内容:


这里github是or 你却放在一起,到底正确么.还有你的ES版本是多少?在哪来可以看到ES 和IK的版本对应的?
我也有同样的疑问? index: analysis: analyzer: ik: alias: [ik_analyzer] type: org.elasticsearch.index.analysis.IkAnalyzerProvider ik_max_word: type: ik use_smart: false ik_smart: type: ik use_smart: true or index.analysis.analyzer.default.type: ik 在github上,而你这里是一起的,具体是什么区别?
FunkyYang
FunkyYang
github上有对应关系,测试现在 es 1.6.0 ---> ik 1.4.0 是可用的
FunkyYang
FunkyYang
github上有对应关系,测试现在 es 1.6.0 ---> ik 1.4.0 是可用的
zplswf
zplswf

引用来自“yinhex”的评论

文章我阅读了,但是有个疑问:
3、分词器配置

打开ES_HOME/config/elasticsearch.yml文件,在文件最后加入如下内容:


这里github是or 你却放在一起,到底正确么.还有你的ES版本是多少?在哪来可以看到ES 和IK的版本对应的?

引用来自“帮宝适”的评论

ik分词器在12年以后就没有再更新了。所以ik最高只支持1.4.0版本的es
https://github.com/medcl/elasticsearch-analysis-ik 支持1.5.0了
log4j_zsj
log4j_zsj
es 1.4.2 ik分词器也可以使用的
帮宝适

引用来自“yinhex”的评论

文章我阅读了,但是有个疑问:
3、分词器配置

打开ES_HOME/config/elasticsearch.yml文件,在文件最后加入如下内容:


这里github是or 你却放在一起,到底正确么.还有你的ES版本是多少?在哪来可以看到ES 和IK的版本对应的?
ik分词器在12年以后就没有再更新了。所以ik最高只支持1.4.0版本的es
分布式搜索elasticsearch 中文分词集成

对于索引可能最关系的就是分词了 一般对于es 来说默认的smartcn 但效果不是很好 一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行: 安装ik插件 ...

空_明
2014/01/23
0
0
Elasticsearch 安装和配置

安装 elasticsearch 上传 elasticsearch-1.7.3.tar.gz 到 Linux环境 解压缩至 /usr/local 目录,并启动 elasticsearch 启动 elasticsearch 浏览器访问 http://192.168.81.132:9200/ ,出现如下......

o135248
04/16
0
0
Elasticsearch中文分词研究

一、ES分析器简介 ES是一个实时搜索与数据分析引擎,为了完成搜索功能,必须对原始数据进行分析、拆解,以建立索引,从而实现搜索功能; ES对数据分析、拆解过程如下: 首先,将一块文本分成...

zhaipengfei1231
04/18
0
0
Elasticsearch安装IK中文分词插件

一,从github上下载最新的Ik分词源码到本地 git clone https://github.com/medcl/elasticsearch-analysis-ik clone到本地后,将elasticsearch-analysis-ik目录中的 config/ik/ 整个目录拷贝到...

shensuoyao
2015/07/22
0
2
ElasticSearch的ik分词插件开发

ik插件,说白了,就是通过封装ik分词器,与ElasticSearch对接,让ElasticSearch能够驱动该分词器。那么,具体怎么与ElasticSearch对接呢?从下往上走,总共3步: 一、封装IK分析器 与Elastic...

萧十一郎君
2014/05/26
0
1

没有更多内容

加载失败,请刷新页面

加载更多

小白带你认识netty(二)之netty服务端启动(上)

上一章 中的标准netty启动代码中,ServerBootstrap到底是如何启动的呢?这一章我们来瞅下。 server.group(bossGroup, workGroup);server.channel(NioServerSocketChannel.class).optio...

天空小小
50分钟前
2
0
聊聊storm trident batch的分流与聚合

序 本文主要研究一下storm trident batch的分流与聚合 实例 TridentTopology topology = new TridentTopology(); topology.newStream("spout1", spout) .p......

go4it
昨天
3
0
3分钟总结Mybatis别名

1.系统内置别名: 把类型全小写(resultType/paramType) 2.给某个类起别名 2.1 alias=”自定义” <typeAliases> <typeAlias type="com.bjsxt.pojo.People" alias="peo"/> </typeAli......

KingFightingAn
昨天
2
0
JAVA设计模式之模板方法模式和建造者模式

一、前期回顾 上一篇《Java 设计模式之工厂方法模式与抽象工厂模式》介绍了三种工厂模式,分别是工厂方法模式,简单工厂方法模式,抽象工厂模式,文中详细根据实际场景介绍了三种模式的定义,...

木木匠
昨天
8
0
C中的宏的使用(宏嵌套/宏展开/可变参数宏)

基本原则: 在展开当前宏函数时,如果形参有#或##则不进行宏参数的展开,否则先展开宏参数,再展开当前宏。 #是在定义两边加上双引号 #define _TOSTR(s) #sprintf(_TOSTR(test ABC))pr...

SamXIAO
昨天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部