文档章节

Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器

一枚Sir
 一枚Sir
发布于 2014/04/10 15:21
字数 665
阅读 279
收藏 1

Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器

1、新建一个文件夹命名为Solr并在里面建两个文件夹分别命名为home和server。

2、将下载的Solr包解压进入example的solr文件夹中拷贝其中的内容到刚建的home文件夹中。

3、将example的webapps文件夹中的solr.war包拷贝到刚建的server文件夹中并解压得到。

4、修改Solr\home\collection1\conf目录下的solrconfig.xml文件。

可以看到solr.data.dir指向刚才见的home文件夹中的data文件夹。我们需要在home文件夹中创建一个文件夹命名为data用于存放索引。

5、为Tomcat的Server.xml配置Context,也就是在需要启动Solr应用的Tomcat中的conf目录中的Server.xml配置文件添加Context节点,配置如下:

图中画荧光背景的固定写法。

6、启动Tomcat Solr4.3会报一个错误。如图:

报不能找到SLF4j logging,可以到Sorl解压包的solr-4.3.0\example\lib\ext目录下把里面五个jar文件拷贝到Solr\server\solr\WEB-INF\lib的目录中,          然后重启Tomcat。

7、访问http://localhost:8080/solr 看到了界面:

说明Solr跟Tomcat整合成功!

8、整个MMSeg4j中文分词器到Solr中

8.1、下载MMSeg4j并解压把mmseg4j-1.9.1\dist 目录中的三个jar包拷贝到Solr\server\solr\WEB-INF\lib目录中

下载地址:https://code.google.com/p/mmseg4j/

8.2、打开MMSeg4j解压目录中的README.txt文件:

添加README.txt中如上图画方框中的xml内容到Solr\home\collection1\conf\schema.xml文件的types节点中:

并修改最后一项的dicPath为dic

8.3、在Solr/home文件夹中创建dic文件夹,也就是dicPath配置的dic参数

为什么要在home目录中创建dic文件夹那,通过MMSeg4j的README.txt文件可以知道:

dicPath 指定词库位置(每个MMSegTokenizerFactory可以指定不同的目录,当是相对目录时,是相对 solr.home 的目录)

8.4、拷贝词库到dic目录中,如果你下载的MMSeg4j文件没有data文件夹,可以下载其他的MMSeg4j文件看看,我下载的 mmseg4j-1.9.1就没有data文件                   夹,但是1.8.5版本是包含data文件夹的,把data文件夹中的文件拷贝到dic文件夹中,好了中文分词器就配好了。启动Solr服务器。

8.5、访问启动的Solr的:

分词已经成果了,上面图中我们选择的textSimple分词器,其实我们拷贝了三种分词器到schema.xml文件中,分别是:textComplex、

textMaxWord和textSimple,你们可以自己逐个试试。


© 著作权归作者所有

共有 人打赏支持
一枚Sir
粉丝 117
博文 209
码字总数 350904
作品 0
朝阳
架构师
加载中

评论(1)

陌路千里
陌路千里
图太坑
Solr 5.3.0集成mmseg4j、tomcat部署、Solrj 5.3.0使用

环境:Jdk 1.7 Solr 5.3.0 Tomcat 7 mmseg4j-solr-2.3.0 1、Solr环境搭建 1.解压solr 5.3.0 2.新建solrhome,将解压文件中的 server/solr 文件夹的复制到solrhome 3.配置solrhome。在solrhom...

liuxw0226
2015/10/24
2.9K
5
创建solr7.3.0集群_测试集群_添加中文分词器_导入数据

solr是apache下的一个用于做搜索引擎的高级项目,使用它可以满足绝大部分应用的搜索需求。 主机环境: Linux:centos6.5 JDK:1.8 solr:7.3.0 zookeeper:3.4.8 mmseg4j-solr:2.4.0 1. 创建与启...

特拉仔
04/25
0
0
solr服务器配置与tomcat整合

最近找了视频学习lucene和solr,记一下怎么配置solr JDK使用的为1.7,如果用1.6貌似会提示版本低 先下载solr3.5和mmseg4j1.8.5的压缩包,下载链接在底部 解压solr3.5,解压后目录结构为 在D...

风吹屁屁凉
2015/03/26
0
0
Solr5.4.0+Tomcat+mmseg4j

solr5.4 mmseg4j-solr-2.3.0 mmseg4j-core-1.10.0 Solr的配置: 1、去http://www.apache.org/dyn/closer.lua/lucene/solr/5.4.0下载 solr-5.4.0.tgz,并解压; 2、将/solr/solr-5.4.0/server......

Mr_Damen
2016/09/12
10
0
[转贴] Lucene 3.0 的几种分词系统

1、 StopAnalyzer StopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能。 2、 StandardAnalyzer StandardAnalyzer根据空格和符号来完成分词,还可以完成数字、字母、E-m...

红薯
2010/10/20
6.3K
3

没有更多内容

加载失败,请刷新页面

加载更多

中秋快乐!!!

HiBlock
昨天
1
0
Node安装教程

1、安装最新版的node 2、设置相关目录(以D盘为例) 分别建立目录:D:\node,D:\node\node-globa,D:\node\node-cache 命令行输入: // 设置npm国内镜像 npm config set registry https://re...

Mohan710
昨天
3
0
中国发布域名系统基础软件 “红枫”

9月12日消息,域名工程中心(英文缩写 ZDNS)发布了宣称自主开发的域名系统基础软件 “红枫(Maple DNS)”。 9月12日消息,域名工程中心(英文缩写 ZDNS)发布了宣称自主开发的域名系统基础软...

问题终结者
昨天
3
0
Shell编程(分发系统介绍、expect远程登录、expect远程执行命令、expect传递参数)

分发系统介绍expect 分发系统expect即分发脚本,是一种脚本语言;通过他可以实现传输,输入命令(上线代码) 应用场景:业务越来越大,网站app,后端,编程语言是php,所以就需要配置lamp或者...

蛋黄_Yolks
昨天
4
0
Java Http请求工具类

public static String httpPost(String source, String params) {URL url = null;HttpURLConnection conn = null;OutputStream os = null;String ret = null;try {......

yuewawa
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部