文档章节

SolrCloud (jetty) 添加mmseg4j 分词

KongFanhao
 KongFanhao
发布于 2016/07/11 19:26
字数 396
阅读 73
收藏 2

本文环境是建立在solr集群上面的,未搭建环境的小伙伴可以移步至:http://my.oschina.net/u/2561483/blog/704307

1. 下载mmseg4j的jar包

需要两个jar : mmseg4j-core-1.10.0.jar   mmseg4j-solr-2.3.0.jar

2. 加载jar包

将jar 放到solr集群中,下面的节点都要放。具体放在 我的目录是:/root/solr-5.4.0/dist

然后配置solr参数 在你创建的collection的配置文件solrconfig.xml中加入

比如我的是~/solr_home/webpage/conf/ 下面的solrconfig.xml:

 <lib dir="${solr.install.dir:../../../..}/dist/" regex=".*\.jar" />

在创建collection的时候将dist下面的jar包加载进去

配置schema.xml 加入自定义的字段 和分词类型:

    <!-- mmseg4j -->
    <fieldType name="text_zh" class="solr.TextField" positionIncrementGap="100">
    <span style="white-space:pre">    </span><analyzer>
    <span style="white-space:pre">        </span><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" />
    <span style="white-space:pre">    </span></analyzer>
    </fieldType>

<field name="my_content" type="text_zh" indexed="true" stored="false" multiValued="true"/>

3.  solrcloud命令创建collection:

./bin/solr create_collection -c students -d server/solr/configsets/sample_techproducts_configs/conf -shards 3 -replicationFactor 3

4. 可以到solr管理界面查看

点这个schema browser 搜索你自定义的字段 my_content 可以查看状态了。

这说明字段都添加成功了。

还可以检查分词的效果,在solr 管理界面左侧边栏选 项,输入测试语句,点击Analyse Values就可以啦:

出现这样的效果说明分词成功~

© 著作权归作者所有

共有 人打赏支持
KongFanhao
粉丝 6
博文 76
码字总数 42265
作品 0
海淀
程序员
私信 提问
创建solr7.3.0集群_测试集群_添加中文分词器_导入数据

solr是apache下的一个用于做搜索引擎的高级项目,使用它可以满足绝大部分应用的搜索需求。 主机环境: Linux:centos6.5 JDK:1.8 solr:7.3.0 zookeeper:3.4.8 mmseg4j-solr:2.4.0 1. 创建与启...

特拉仔
04/25
0
0
开源大数据索引项目hive-solr

github地址:https://github.com/qindongliang/hive-solr 欢迎大家fork和使用 关于这个项目的介绍,请参考散仙前面的文章: http://qindongliang.iteye.com/blog/2283862 最新更新: (1)添...

九劫散仙
2016/05/06
232
0
[转]与Lucene 4.10配合的中文分词比较(标准详细的比较)

本文转自: http://www.hansight.com/blog-lucene4.10-with-chinese-segment.html 感谢原作者。 比较目的 衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。 分...

狮子的魂
2015/01/18
7.7K
7
mmseg4j-1.9 solr4 bug 处理

目前 中文分词mmseg4j 在 solr4 下是不能正常工作的。 解决方法可简单了, 只是solr4 接口有点变化 。 中文分词mmseg4插件的作者 没及时的跟上"solr4 接口"变化。 虽然分词算法是对的,添加的...

空_明
2014/04/01
0
0
中文分词器--mmseg4j

1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。......

chenlb
2009/09/26
31.4K
3

没有更多内容

加载失败,请刷新页面

加载更多

windows上类似dnsmasq的软件Dual DHCP DNS Server

官网地址:http://dhcp-dns-server.sourceforge.net/官网定向的下载地址:https://sourceforge.net/projects/dhcp-dns-server/files/ 设置参考地址:http://blog.51cto.com/zhukeqiang/18264......

xueyuse0012
今天
1
0
LinkedHashMap源码解析

前言 HashMap中的元素时无序的,也就是说遍历HashMap的时候,顺序和放入的顺序是不一样的。 如果需要有序的Map,就可以采用LinkedHashMap. LinkedHashMap通过维护一个包含所有元素的双向链表,...

grace_233
今天
3
0
初识flask

文档 0.10.1版本 http://www.pythondoc.com/flask/index.html 1.0.2版本 https://dormousehole.readthedocs.io/en/latest/ 安装flask $ pip3 install flaskCollecting flask Downloading......

yimingkeji
昨天
4
0
Akka系统《sixteen》译

Actor是一个封装状态(state)和行为(behavior)的对象,它们只通过交换消息通信(放入收件人邮箱的邮件)。从某种意义上说,Actor是最严格的面向对象编程形式,但它更适合将他们视为人:在与Act...

woshixin
昨天
1
0
技术工坊|如何开发一款以太坊钱包(深圳)

【好消息!】HiBlock区块链技术工坊已经成功举办了26期,其中北京1期,西安1期,成都2期,上海22期。经常有社区的小伙伴问定期举办技术工坊的除了上海以外,其他城市有没有?现在区块链技术工...

HiBlock
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部