文档章节

Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器

一枚Sir
 一枚Sir
发布于 2014/04/10 15:21
字数 665
阅读 278
收藏 1
点赞 1
评论 1

Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器

1、新建一个文件夹命名为Solr并在里面建两个文件夹分别命名为home和server。

2、将下载的Solr包解压进入example的solr文件夹中拷贝其中的内容到刚建的home文件夹中。

3、将example的webapps文件夹中的solr.war包拷贝到刚建的server文件夹中并解压得到。

4、修改Solr\home\collection1\conf目录下的solrconfig.xml文件。

可以看到solr.data.dir指向刚才见的home文件夹中的data文件夹。我们需要在home文件夹中创建一个文件夹命名为data用于存放索引。

5、为Tomcat的Server.xml配置Context,也就是在需要启动Solr应用的Tomcat中的conf目录中的Server.xml配置文件添加Context节点,配置如下:

图中画荧光背景的固定写法。

6、启动Tomcat Solr4.3会报一个错误。如图:

报不能找到SLF4j logging,可以到Sorl解压包的solr-4.3.0\example\lib\ext目录下把里面五个jar文件拷贝到Solr\server\solr\WEB-INF\lib的目录中,          然后重启Tomcat。

7、访问http://localhost:8080/solr 看到了界面:

说明Solr跟Tomcat整合成功!

8、整个MMSeg4j中文分词器到Solr中

8.1、下载MMSeg4j并解压把mmseg4j-1.9.1\dist 目录中的三个jar包拷贝到Solr\server\solr\WEB-INF\lib目录中

下载地址:https://code.google.com/p/mmseg4j/

8.2、打开MMSeg4j解压目录中的README.txt文件:

添加README.txt中如上图画方框中的xml内容到Solr\home\collection1\conf\schema.xml文件的types节点中:

并修改最后一项的dicPath为dic

8.3、在Solr/home文件夹中创建dic文件夹,也就是dicPath配置的dic参数

为什么要在home目录中创建dic文件夹那,通过MMSeg4j的README.txt文件可以知道:

dicPath 指定词库位置(每个MMSegTokenizerFactory可以指定不同的目录,当是相对目录时,是相对 solr.home 的目录)

8.4、拷贝词库到dic目录中,如果你下载的MMSeg4j文件没有data文件夹,可以下载其他的MMSeg4j文件看看,我下载的 mmseg4j-1.9.1就没有data文件                   夹,但是1.8.5版本是包含data文件夹的,把data文件夹中的文件拷贝到dic文件夹中,好了中文分词器就配好了。启动Solr服务器。

8.5、访问启动的Solr的:

分词已经成果了,上面图中我们选择的textSimple分词器,其实我们拷贝了三种分词器到schema.xml文件中,分别是:textComplex、

textMaxWord和textSimple,你们可以自己逐个试试。


© 著作权归作者所有

共有 人打赏支持
一枚Sir
粉丝 117
博文 209
码字总数 350904
作品 0
朝阳
架构师
加载中

评论(1)

陌路千里
陌路千里
图太坑
Solr 5.3.0集成mmseg4j、tomcat部署、Solrj 5.3.0使用

环境:Jdk 1.7 Solr 5.3.0 Tomcat 7 mmseg4j-solr-2.3.0 1、Solr环境搭建 1.解压solr 5.3.0 2.新建solrhome,将解压文件中的 server/solr 文件夹的复制到solrhome 3.配置solrhome。在solrhom...

liuxw0226
2015/10/24
2.9K
5
创建solr7.3.0集群_测试集群_添加中文分词器_导入数据

solr是apache下的一个用于做搜索引擎的高级项目,使用它可以满足绝大部分应用的搜索需求。 主机环境: Linux:centos6.5 JDK:1.8 solr:7.3.0 zookeeper:3.4.8 mmseg4j-solr:2.4.0 1. 创建与启...

特拉仔
04/25
0
0
solr服务器配置与tomcat整合

最近找了视频学习lucene和solr,记一下怎么配置solr JDK使用的为1.7,如果用1.6貌似会提示版本低 先下载solr3.5和mmseg4j1.8.5的压缩包,下载链接在底部 解压solr3.5,解压后目录结构为 在D...

风吹屁屁凉
2015/03/26
0
0
Solr5.4.0+Tomcat+mmseg4j

solr5.4 mmseg4j-solr-2.3.0 mmseg4j-core-1.10.0 Solr的配置: 1、去http://www.apache.org/dyn/closer.lua/lucene/solr/5.4.0下载 solr-5.4.0.tgz,并解压; 2、将/solr/solr-5.4.0/server......

Mr_Damen
2016/09/12
10
0
[转贴] Lucene 3.0 的几种分词系统

1、 StopAnalyzer StopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能。 2、 StandardAnalyzer StandardAnalyzer根据空格和符号来完成分词,还可以完成数字、字母、E-m...

红薯
2010/10/20
6.3K
3
Java开源项目cws_evaluation:中文分词器分词效果评估

cwsevaluation 是一个Java开源项目,用于对Java中文分词器分词效果进行评估。 cwsevaluation 是通过对前文《word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估》中写的...

杨尚川
2014/08/30
0
5
Apache Lucene 几种分词系统

1、 StopAnalyzer StopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能。 2、 StandardAnalyzer StandardAnalyzer根据空格和符号来完成分词,还可以完成数字、字母、E-m...

6pker
2015/02/26
0
0
cws_evaluation v1.1 发布,中文分词器分词效果评估对比

cws_evaluation 是一个Java开源项目,用于对中文分词器的分词效果进行评估对比,目前支持9大中文分词器。分别是:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、...

杨尚川
2015/05/12
1K
0
cws_evaluation v1.0 发布,Java 中文分词器分词效果评估

cwsevaluation 是一个Java开源项目,用于对Java中文分词器分词效果进行评估。 支持的分词器有:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、p...

杨尚川
2014/05/02
929
4
Solr环境配置、中文分词、数据库做为索引源及索引操作

一、配置solr环境 1、 下载solr http://www.apache.org/dyn/closer.cgi/lucene/solr/ 此处用的是4.6 解压到D盘D:/solr/apache-solr-4.6.0 2、修改tomcat conf/server.xml <Connector connect......

空_明
2013/06/26
0
5

没有更多内容

加载失败,请刷新页面

加载更多

下一页

istio 路由实例解析

根据链路追踪图如上: 资料:https://istio.io/docs/guides/bookinfo/ 流程解析: 1. 访问地址: http://IP:31380/productpage kubectl get svc --all-namespaces -o wide istio-system isti......

xiaomin0322
10分钟前
2
0
Centos7通过yum安装jdk8

先查看系统是否已有自带的jdk rpm -qa |grep java rpm -qa |grep jdk rpm -qa |grep gcj 如果没有输出信息,则说明系统没有安装。如果有输出信息,则执行下面的命令卸载 rpm -qa | grep jav...

iplusx
12分钟前
0
0
字体的动画

树不要皮必死无疑,人不要脸天下无敌。如果你此时正在被承受着不公平的待遇,不要伤心不要气馁,吃亏要趁早。 .menu ul li a { position:relative; color: #FFFFFF; text-decoration:...

Js_Mei
13分钟前
0
0
新手学习hadoop发行版本选择介绍

Hadoop对于从事互联网工作的朋友来说已经非常熟悉了,相信在我们身边有很多人正在转行从事hadoop开发的工作,理所当然也会有很多hadoop入门新手。Hadoop开发太过底层,技术难度远比我们想象的...

左手的倒影
13分钟前
0
0
iOS定时器循环引用问题解决

我们通常使用NSTimer或CADisplayLink会使用以下方式 //定义@property (nonatomic, strong)NSTimer *timer;//实现self.timer = [NSTimer scheduledTimerWithTimeInterval:1 target:p......

xiaobai1315
14分钟前
0
0
给wordpress程序提速

在上一节中,我们介绍了wordpress CMS主题提速,本节我们接着介绍wordpress主题提速:gravatar用户头像缓存和google字体去除。 gravatar头像受到全世界网络用户的喜爱,设置好gravatar头像后...

hero2019
16分钟前
0
0
DevExpress v18.1最新版帮助文档下载大全

DevExpress v18.1.4帮助文档下载列表大全来啦!包含.NET、VCL、HTML/JS系列所有帮助文档,提供CHM和PDF两个版本。除已停止更新的Silverlight、Windows 8外,其余均为最新版本。 文章底部扫描...

Miss_Hello_World
19分钟前
0
0
Unity Shader中各种空间及变换方法

前几天尝试写一个传送门的shader,发现自己对坐标之间的变换掌握的不够熟练,趁着这阵子想整理shader相关的知识点,先把各种空间及之间转换整理一下。 1 模型空间-世界空间-观察空间-裁剪空间...

爽歪歪ES
25分钟前
0
0

定义和应用 栈(stack)是一种特殊的线性表,其插入(也称入栈或压栈)和删除(也称出栈或弹栈)操作都在表的同一端进行。这一端被称为栈顶(top)另一端称为栈底端(bottom)。 我们生活中其实...

Frost729
27分钟前
0
0
数据分析挖掘学习干货:大数据处理技术的总结与分析

一 数据分析处理需求分类 1 事务型处理 在我们实际生活中,事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。 这类系...

加米谷大数据
31分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部