solr5.3.1 添加中文分词之mmseg4j

原创

小山人

Java 编程

2016/01/06 16:01

阅读数 1K

AI+网络安全商业案例白皮书，快来下载！”

1，下载对应jar包，并拷贝到sorl服务器的lib目录底下

2，添加配置文件（在Solr的安装部署及简单使用已经有过介绍）

<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">
		<analyzer>
			<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="d:\solr\my_dic"/>
		</analyzer>
	</fieldtype>
	 
	<fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
		<analyzer>
			<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
		</analyzer>
	</fieldtype>
	 
	<fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">
		<analyzer>
			<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic" />
		</analyzer>
	</fieldtype>

其中 dicPath="d:\solr\my_dic" 是我们指定的词库路径，词库文件都在这个文件夹底下，并且名字要以words开头，以dic做后缀，例如 words_my.dic。作为演示，在词库里添加

爱他美
高富帅

值得强调的是：这个词典文件必须是utf-8格式的，否则无法识别。

3，重启solr服务，进入管理界面

先试一下没有添加自定义词库的效果，输入文字：高富帅喜欢德国爱他美奶粉（使用textSimple）

再试一下添加了自定义词库的效果，还是上面的文字

明显添加了自定义词库的显示效果要比没添加好很多

zoujiaqing 2024-06-16 14:20

一堆升级软件版本信息写的这么伟大，真是没啥做的了？

Francesca 2024-06-15 15:56

这不还是六个手指吗

monkey_cici 2024-05-09 00:25

我一台I9cpu,64GB内存条,3080Ti电脑都比不上一台平板顶配19999...

liulun 2024-06-15 14:37

snipaste很好，我这个是特殊场景下用的，跟snipaste不存在竞争关系。

一码Yma 2024-05-09 09:58

最近经常去面试,最讨厌阿里背景的人,感觉一个个都把我当傻子看,虽然我就是傻子

osc_31118037 2024-06-15 14:17

我骗了你的钱，避免了你的钱被别人骗走，所以我这是变相的保护了你钱，看我多高大上

gamedot 2024-05-17 11:14

老周从骨子里都在为华为的开源大业考虑，不是华为的人，却有华为的魂。

kingMH 2024-06-15 16:49

1、不是不能卸载，是卸载后很快又安装了，无孔不入

斯

斯蒂芬421 2024-06-12 10:37

如果我写一个脚本，让AI全天24小时给是按各种关键词生成图片，那不是可以在家坐等收钱了

sevk 2024-06-15 19:23

安装后3个月开始卡，换火绒就不会卡。

shanliu 2024-06-15 10:26

国内已经凉了

陈钇蒙 2024-06-15 13:27

曾经的互联网+

无尽的拉格朗日 2024-06-16 14:15

我怎么感觉欣欣向荣呢

osc_29565037 2024-06-15 12:21

觉得好可以推荐给身边需要的人使用。😃

kingMH 2024-06-15 16:50

2、安装之后各种默认和强制弹窗很烦很丑

西红柿幽幽子 2024-05-30 16:53

有现成的开源产品可用，我需要个垃圾来保底？

单一结构 2024-05-11 10:09

入选开源中国耻辱柱

英特迈往 2024-05-30 13:42

8.00亿元用于达梦中国数据库产业基地，6.03亿元用于达梦研究院建设项目。融资23.51亿，14.03亿搞基建。666

秦利明 2024-05-11 09:12

恬不知耻

奥

奥术猫 2024-04-30 10:24

@zlqzlq 现在的新闻都是标题党，你要这么发也没问题，就看你正文有没讲清楚。至少这个OGG讲清楚了，加粗讲清楚了：OGG Fork 自 OCCT。贡献以前，或者将来的全部源代码。还有，你们把这个这个新闻等同华为。其实这个发的新闻资讯的标题，不是华为发的，是oschina起的，原文也不是这个标题。所以我搞不懂为什么有那么些人，涉及到华为就恨是为什么？