Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器
Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器
一枚Sir 发表于4年前
Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器
  • 发表于 4年前
  • 阅读 271
  • 收藏 1
  • 点赞 1
  • 评论 1

腾讯云 十分钟定制你的第一个小程序>>>   

Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器

1、新建一个文件夹命名为Solr并在里面建两个文件夹分别命名为home和server。

2、将下载的Solr包解压进入example的solr文件夹中拷贝其中的内容到刚建的home文件夹中。

3、将example的webapps文件夹中的solr.war包拷贝到刚建的server文件夹中并解压得到。

4、修改Solr\home\collection1\conf目录下的solrconfig.xml文件。

可以看到solr.data.dir指向刚才见的home文件夹中的data文件夹。我们需要在home文件夹中创建一个文件夹命名为data用于存放索引。

5、为Tomcat的Server.xml配置Context,也就是在需要启动Solr应用的Tomcat中的conf目录中的Server.xml配置文件添加Context节点,配置如下:

图中画荧光背景的固定写法。

6、启动Tomcat Solr4.3会报一个错误。如图:

报不能找到SLF4j logging,可以到Sorl解压包的solr-4.3.0\example\lib\ext目录下把里面五个jar文件拷贝到Solr\server\solr\WEB-INF\lib的目录中,          然后重启Tomcat。

7、访问http://localhost:8080/solr 看到了界面:

说明Solr跟Tomcat整合成功!

8、整个MMSeg4j中文分词器到Solr中

8.1、下载MMSeg4j并解压把mmseg4j-1.9.1\dist 目录中的三个jar包拷贝到Solr\server\solr\WEB-INF\lib目录中

下载地址:https://code.google.com/p/mmseg4j/

8.2、打开MMSeg4j解压目录中的README.txt文件:

添加README.txt中如上图画方框中的xml内容到Solr\home\collection1\conf\schema.xml文件的types节点中:

并修改最后一项的dicPath为dic

8.3、在Solr/home文件夹中创建dic文件夹,也就是dicPath配置的dic参数

为什么要在home目录中创建dic文件夹那,通过MMSeg4j的README.txt文件可以知道:

dicPath 指定词库位置(每个MMSegTokenizerFactory可以指定不同的目录,当是相对目录时,是相对 solr.home 的目录)

8.4、拷贝词库到dic目录中,如果你下载的MMSeg4j文件没有data文件夹,可以下载其他的MMSeg4j文件看看,我下载的 mmseg4j-1.9.1就没有data文件                   夹,但是1.8.5版本是包含data文件夹的,把data文件夹中的文件拷贝到dic文件夹中,好了中文分词器就配好了。启动Solr服务器。

8.5、访问启动的Solr的:

分词已经成果了,上面图中我们选择的textSimple分词器,其实我们拷贝了三种分词器到schema.xml文件中,分别是:textComplex、

textMaxWord和textSimple,你们可以自己逐个试试。


共有 人打赏支持
粉丝 115
博文 207
码字总数 350904
评论 (1)
陌路千里
图太坑
×
一枚Sir
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: