文档章节

在Solr4.9中使用IKAnalyzer,实现同义词,扩展词库,停顿词的添加

翊骷
 翊骷
发布于 2014/09/11 09:18
字数 301
阅读 4.4K
收藏 0

     在使用solr4.9的过程中,使用了IKAnalyzer分词器,其中遇到了不少问题,现在做个记录,以备后续只用。

     首先使用IKAnalyzer是看到群里有人介绍,但是貌似现在IKAnalyzer已经没人更新了。。。不知道是不是真的,先不管这些,下面介绍一下如何在solr中使用它。

     在solr的配置文件schema.xml中添加


<!--IKAnalyzer-->
   <fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">  
     <analyzer type="index">  
       <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory"  isMaxWordLength="false"/>  
       <filter class="solr.LowerCaseFilterFactory"/>  
     </analyzer>  
     <analyzer type="query">  
       <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory"  isMaxWordLength="true"/>       
       <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>  
       <filter class="solr.LowerCaseFilterFactory"/>  
     </analyzer>  
   </fieldType>
    其中的org.wltea.analyzer.lucene.IKAnalyzerSolrFactory类是自己扩展的,一会我会把IKAnalyzer扩展到Jar包传上来。

synonyms.txt在solr_home/didi/conf文件下。

   配置扩展词跟扩展停顿词配置入下:

IKAnalyzer.cfg.xml内容如下:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
 
<comment>IK Analyzer 扩展配置</comment>
 
<!--用户可以在这里配置自己的扩展字典
 
<entry key="ext_dict">ext.dic;</entry>
-->

 
<entry key="ext_dict">mydict.dic;</entry>

<!--用户可以在这里配置自己的扩展停止词字典-->
 
<entry key="ext_stopwords">stopword.dic;</entry>  
</properties>

jar包下载路径:http://pan.baidu.com/s/1kT1cysn

© 著作权归作者所有

翊骷
粉丝 14
博文 125
码字总数 68191
作品 0
济南
程序员
私信 提问
加载中

评论(1)

java人生
java人生
你这个jar包加上了为什么还是提示 :
collectionTest1: org.apache.solr.common.SolrException:org.apache.solr.common.SolrException: Plugin init failure for [schema.xml] fieldType "text_ik": Plugin init failure for [schema.xml] analyzer/tokenizer: Error instantiating class: 'org.wltea.analyzer.lucene.IKAnalyzerSolrFactory'

这是为什么呢?

我也打开你的jar看了 有这个IKAnalyzerSolrFactory.class类的啊。
IKAnalyzer分词器自定义扩展字典设置不起作用

IKAnalyzer配置如下: ext.dic是自定义扩展词库,我在里面添加了一项: 欧洲杯四强赛 希望IKAnalyzer能把它当作一个词,不要把它拆分,可是运行结果却是: 加载扩展词典:/ext.dic 加载扩展停止词典...

vnetoolxw
2014/03/29
1.1W
8
solr配置停止词,同义词和扩展词库

停止词:lucene的停止词是无功能意义的词,比如is 、a 、are 、”的”,“得”,“我” 等,这些词会在句子中多次出现却无意义,所以在分词的时候需要把这些词过滤掉。 扩展词库:就是不想让...

zachary124
2013/07/05
5.6K
2
搜索引擎(Solr-模式详解)

Schema介绍 Schema 是什么? 问题1:在lucene中我们要对文档字段进行索引存储,需要如何做? 问题2:现在我们使用Solr搜索服务平台了,不需要编码了,还需要定义如何索引存储字段吗? 需要一...

这很耳东先生
2019/02/15
31
0
Lucene的中文分词器IKAnalyzer

分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写...

王国龙_成长
2013/02/05
1.5K
3
得到文章的关键词后根据它对文章划分类别

使用分词器得到一篇文章的词,例如对一句话“IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本”分析, 得到...

printf_ll
2014/09/04
631
2

没有更多内容

加载失败,请刷新页面

加载更多

基于 rsync 和 ln 实现“写时复制”的快照备份功能

一、基本原理 这里“写时复制”加了一个引号,因为这是专门针对使用rsync备份时的写时复制效果,而不是事实上的写时复制(copy-on-write),其达到的目的如下: 使用 rsync 备份数据后,立即...

Inpool
35分钟前
25
0
郑州哪哪里可以开工程款发票-郑州_新闻网

【电薇同步;1.3.8 - 2.7.4.1 - 5.2.9.7.】张生、诚、信、合、作,保、真、售、后、保、障、长、期、有、效。adb的全称为Android Debug Bridge,是Android手机通用...

yyqqvip
今天
30
0
Nginx 反向代理访问

在Nginx 配置 server { listen 80; server_name www.xiaocx.org www.xiaocx.org www.xiaocx.org; root /Users/maison/work/xiaocx/dist; index i......

韩庚庚
今天
33
0
python笔记:环境变量已设置CMD中一直报错"python"不是内部命令,也不是可运行的程序或批处理文件

这些天虽然也写了几个小工具,但是打包都是在anaconda prompt中完成的,因为CMD中一直报错"python"不是内部命令,也不是可运行的程序或批处理文件,各种查度,千篇一律的是环境变量配置的问题...

小玲_001
今天
13
0
AI+BI服务模式

术语与缩写解释 缩写、术语 解 释 BI 商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析...

zoegu228
今天
32
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部