CDH添加solr中文分词

原创
2015/10/12 15:18
阅读数 284

参考别人的文章:http://www.52itstyle.com/thread-2476-1-1.html

cdh最难找的就是solr\WEB-INF\lib的位置,由于cdh不是我安装的,也没有配置    SOLR_HOME,所以,我找了很久时间。可以赢find命令找。

solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。
一、版本信息
solr版本:4.10.0
需要ik-analyzer版本:IK Analyzer 2012FF_hf1

二、配置步骤
下载压缩解压
我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。注意:如果是cdh这个路径有变动,我的为:

/opt/cloudera/parcels/CDH-5.4.4-1.cdh5.4.4.pp0.4/lib/solr/webapps/solr/WEB-INF/lib

在高版本的CDH中,位置为:/usr/lib/solr/webapps/solr/WEB-INF/lib

如果不知道jar位置在哪里 ,可以这样搜搜索: find   /   -name  admin.html

注意:不要把jar上传到这里:/var/lib/solr/tomcat-deployment/webapps/solr/WEB-INF/lib

这是tomcat部署的时候的位置,重启后重新从上面两个路径的jar拷贝到/var/lib/solr/tomcat-deployment/webapps/solr/WEB-INF/lib这里,如果你上传到这里,重启solr,jar会消失


我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面,和core的schema.xml文件一个目录。
修改core的schema.xml:

  1. <fieldType name="text_ik" class="solr.TextField">   

  2.         <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>  

  3.         <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>  

  4.     </fieldType>



配置测试字段:

  1. <field name="quesContent" type="text_ik" />


三:测试配置





展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部