文档章节

solr5.3.1 添加中文分词之IKAnalyzer

Fraud
 Fraud
发布于 2016/01/06 15:46
字数 255
阅读 2149
收藏 0

特别注意:solr版本对应的分词jar包的版本是不一样的,此处5.3.1的分词jar包版本在

https://github.com/EugenePig/ik-analyzer-solr5

可以下载,需要使用maven打包

  • based on IK Analyer 2012-FF Hotfix 1

  • added support for Lucene 5.1.0 API

作者在上面写到,这个版本是基于2012-FF Hotifx 1版本修改的,增加了对lucene 5以上的版本的支持

1,下载好文件后,解压,进入文件夹目录,使用对应的mvn命令打成jar包,然后将打好的jar包,拷贝到solr的对应lib目录中。2,修改solr_home目录中(在我们这里是my_solr)的schema.xml配置文件,在最后添加

<fieldType name="text_ik" class="solr.TextField">
    <analyzer type="index" useSmart="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
    <analyzer type="query" useSmart="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
</fieldType>

3,打开solr管理界面,查看运行结果

© 著作权归作者所有

Fraud
粉丝 40
博文 36
码字总数 25050
作品 0
程序员
私信 提问
加载中

评论(1)

黑巧克力键盘
黑巧克力键盘
楼主很赞,解决了IKAnalyzer支持solr5的问题,我直接拿来用啦,谢谢楼主
IKAnalyzer中文分词器

IKAnalyzer3.0介绍 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体...

期待变强的菜鸟
2014/09/10
2.4K
0
IKAnalyzer 中文分词库源码已迁移到 Git@OSC

IKAnalyzer 是一个非常著名和老牌的 Java 中文分词库,目前 OSChina 网站也是使用 IK 分词器。IKAnalyzer 的代码一直放在 Google Code 的,你知道的,Google Code 系统做得比较“糟糕”,经常...

oschina
2015/01/22
11.6K
34
得到文章的关键词后根据它对文章划分类别

使用分词器得到一篇文章的词,例如对一句话“IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本”分析, 得到...

printf_ll
2014/09/04
605
2
Lucene的中文分词器IKAnalyzer

分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写...

王国龙_成长
2013/02/05
1K
3
Lucene使用IKAnalyzer中文分词笔记

本文主要讲解IKAnalyzer(以下简称‘IK’)在Lucene中的具体使用,关于Lucene和IK分词器的背景及其作用在这里就不再熬述。不得不感叹下Lucene版本变更的快速,如今最新已经到了4.9.0,相信任...

Jialy
2014/09/02
8.5K
0

没有更多内容

加载失败,请刷新页面

加载更多

使用CSS自定义属性构建骨架屏

写在前面 几天前看到薄荷前端团队分享的《前端骨架屏方案小结》,突然回想起一年前看到的max bock写的《Building Skeleton Screens with CSS Custom Properties》,翻译整理写下出此文,分享...

前端老手
昨天
9
0
Docker常用命令小记

除了基本的<font color="blue">docker pull</font>、<font color="blue">docker image</font>、<font color="blue">docker ps</font>,还有一些命令及参数也很重要,在此记录下来避免遗忘。 ......

程序员欣宸
昨天
9
0
MAT使用-jvm内存溢出问题分析定位

1.MAT简介: MAT 全称 Eclipse Memory Analysis Tools 是一个分析 Java堆数据的专业工具,可以计算出内存中对象的实例数量、占用空间大小、引用关系等,看看是谁阻止了垃圾收集器的回收工作,...

xiaomin0322
昨天
5
0
内网和外网之间的通信(端口映射原理)

首先解释一下“内网”与“外网”的概念: 内网:即所说的局域网,比如学校的局域网,局域网内每台计算机的IP地址在本局域网内具有互异性,是不可重复的。但两个局域网内的内网IP可以有相同的...

Jack088
昨天
6
0
3.深入jvm内核-原理、诊断与优化-4. GC算法和种类

一、GC算法和种类 GC的概念 GC算法 引用计数法 标记清除 标记压缩 复制算法 可触及性 Stop-The-World GC的对象是堆空间和永久区 引用计数法 老牌垃圾回收算法 通过引用计算来回收垃圾 使用者...

hexiaoming123
昨天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部