文档章节

Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器

一枚Sir
 一枚Sir
发布于 2014/04/10 15:21
字数 665
阅读 279
收藏 1

Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器

1、新建一个文件夹命名为Solr并在里面建两个文件夹分别命名为home和server。

2、将下载的Solr包解压进入example的solr文件夹中拷贝其中的内容到刚建的home文件夹中。

3、将example的webapps文件夹中的solr.war包拷贝到刚建的server文件夹中并解压得到。

4、修改Solr\home\collection1\conf目录下的solrconfig.xml文件。

可以看到solr.data.dir指向刚才见的home文件夹中的data文件夹。我们需要在home文件夹中创建一个文件夹命名为data用于存放索引。

5、为Tomcat的Server.xml配置Context,也就是在需要启动Solr应用的Tomcat中的conf目录中的Server.xml配置文件添加Context节点,配置如下:

图中画荧光背景的固定写法。

6、启动Tomcat Solr4.3会报一个错误。如图:

报不能找到SLF4j logging,可以到Sorl解压包的solr-4.3.0\example\lib\ext目录下把里面五个jar文件拷贝到Solr\server\solr\WEB-INF\lib的目录中,          然后重启Tomcat。

7、访问http://localhost:8080/solr 看到了界面:

说明Solr跟Tomcat整合成功!

8、整个MMSeg4j中文分词器到Solr中

8.1、下载MMSeg4j并解压把mmseg4j-1.9.1\dist 目录中的三个jar包拷贝到Solr\server\solr\WEB-INF\lib目录中

下载地址:https://code.google.com/p/mmseg4j/

8.2、打开MMSeg4j解压目录中的README.txt文件:

添加README.txt中如上图画方框中的xml内容到Solr\home\collection1\conf\schema.xml文件的types节点中:

并修改最后一项的dicPath为dic

8.3、在Solr/home文件夹中创建dic文件夹,也就是dicPath配置的dic参数

为什么要在home目录中创建dic文件夹那,通过MMSeg4j的README.txt文件可以知道:

dicPath 指定词库位置(每个MMSegTokenizerFactory可以指定不同的目录,当是相对目录时,是相对 solr.home 的目录)

8.4、拷贝词库到dic目录中,如果你下载的MMSeg4j文件没有data文件夹,可以下载其他的MMSeg4j文件看看,我下载的 mmseg4j-1.9.1就没有data文件                   夹,但是1.8.5版本是包含data文件夹的,把data文件夹中的文件拷贝到dic文件夹中,好了中文分词器就配好了。启动Solr服务器。

8.5、访问启动的Solr的:

分词已经成果了,上面图中我们选择的textSimple分词器,其实我们拷贝了三种分词器到schema.xml文件中,分别是:textComplex、

textMaxWord和textSimple,你们可以自己逐个试试。


© 著作权归作者所有

共有 人打赏支持
一枚Sir
粉丝 117
博文 209
码字总数 350904
作品 0
朝阳
架构师
私信 提问
加载中

评论(1)

陌路千里
陌路千里
图太坑
Solr 5.3.0集成mmseg4j、tomcat部署、Solrj 5.3.0使用

环境:Jdk 1.7 Solr 5.3.0 Tomcat 7 mmseg4j-solr-2.3.0 1、Solr环境搭建 1.解压solr 5.3.0 2.新建solrhome,将解压文件中的 server/solr 文件夹的复制到solrhome 3.配置solrhome。在solrhom...

liuxw0226
2015/10/24
2.9K
5
创建solr7.3.0集群_测试集群_添加中文分词器_导入数据

solr是apache下的一个用于做搜索引擎的高级项目,使用它可以满足绝大部分应用的搜索需求。 主机环境: Linux:centos6.5 JDK:1.8 solr:7.3.0 zookeeper:3.4.8 mmseg4j-solr:2.4.0 1. 创建与启...

特拉仔
04/25
0
0
Solr5.4.0+Tomcat+mmseg4j

solr5.4 mmseg4j-solr-2.3.0 mmseg4j-core-1.10.0 Solr的配置: 1、去http://www.apache.org/dyn/closer.lua/lucene/solr/5.4.0下载 solr-5.4.0.tgz,并解压; 2、将/solr/solr-5.4.0/server......

Mr_Damen
2016/09/12
10
0
Java开源项目cws_evaluation:中文分词器分词效果评估

cwsevaluation 是一个Java开源项目,用于对Java中文分词器分词效果进行评估。 cwsevaluation 是通过对前文《word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估》中写的...

杨尚川
2014/08/30
0
5
cws_evaluation v1.1 发布,中文分词器分词效果评估对比

cws_evaluation 是一个Java开源项目,用于对中文分词器的分词效果进行评估对比,目前支持9大中文分词器。分别是:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、...

杨尚川
2015/05/12
1K
0

没有更多内容

加载失败,请刷新页面

加载更多

Vue + Vue-CLI + Mint-UI 移动端开发新手示例实战 - by dogstar

Vue + Vue-CLI + Mint-UI 移动端开发新手示例实战 - by dogstar 项目源代码,在码云上:https://gitee.com/dogstar/a-vue-mint-demo 快速使用 # 安装依赖npm install# 本地开发调试 lo...

暗夜在火星
39分钟前
1
0
Docker 的 Web 管理工具 DockerFly

Dockerfly是基于 Docker1.12+ (Docker API 1.24+) 开发出Docker 管理工具,提供里最基本的基于 Docker 的管理功能,目的是能够方便广大Docker初学者以及 Docker 管理员能够快速的进行Docker 容...

linuxprobe16
41分钟前
3
0
java.util.concurrent.atomic.AtomicBoolean 源码

类图: 源码: package java.util.concurrent.atomic;import sun.misc.Unsafe;public class AtomicBoolean implements java.io.Serializable { private static final long ser......

狼王黄师傅
44分钟前
2
0
msql创建视图笔录

由于之前写视图都没有记录,这次客户公司要求我写三张视图,却发现自己忘了咋写的!于是有去百度了下,分分钟搞定了。但是,个人还是做个笔录吧!以后不用去看别人的写法咯。 #车辆会员查询...

em_aaron
55分钟前
3
0
年终回顾,为你汇总一份「后端架构技术清单」

2018年马上就要过去了说说我这一年的感想吧 很多人做Java开发3,4年后,都会感觉自己遇到瓶颈。什么都会又什么都不会,如何改变困境,为什么很多人写了7,8年代码还是一个码农,工作中太多被动...

James-
56分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部