文档章节

SolrCloud (jetty) 添加mmseg4j 分词

KongFanhao
 KongFanhao
发布于 2016/07/11 19:26
字数 396
阅读 71
收藏 2

本文环境是建立在solr集群上面的,未搭建环境的小伙伴可以移步至:http://my.oschina.net/u/2561483/blog/704307

1. 下载mmseg4j的jar包

需要两个jar : mmseg4j-core-1.10.0.jar   mmseg4j-solr-2.3.0.jar

2. 加载jar包

将jar 放到solr集群中,下面的节点都要放。具体放在 我的目录是:/root/solr-5.4.0/dist

然后配置solr参数 在你创建的collection的配置文件solrconfig.xml中加入

比如我的是~/solr_home/webpage/conf/ 下面的solrconfig.xml:

 <lib dir="${solr.install.dir:../../../..}/dist/" regex=".*\.jar" />

在创建collection的时候将dist下面的jar包加载进去

配置schema.xml 加入自定义的字段 和分词类型:

    <!-- mmseg4j -->
    <fieldType name="text_zh" class="solr.TextField" positionIncrementGap="100">
    <span style="white-space:pre">    </span><analyzer>
    <span style="white-space:pre">        </span><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" />
    <span style="white-space:pre">    </span></analyzer>
    </fieldType>

<field name="my_content" type="text_zh" indexed="true" stored="false" multiValued="true"/>

3.  solrcloud命令创建collection:

./bin/solr create_collection -c students -d server/solr/configsets/sample_techproducts_configs/conf -shards 3 -replicationFactor 3

4. 可以到solr管理界面查看

点这个schema browser 搜索你自定义的字段 my_content 可以查看状态了。

这说明字段都添加成功了。

还可以检查分词的效果,在solr 管理界面左侧边栏选 项,输入测试语句,点击Analyse Values就可以啦:

出现这样的效果说明分词成功~

© 著作权归作者所有

共有 人打赏支持
KongFanhao
粉丝 5
博文 76
码字总数 42265
作品 0
海淀
程序员
创建solr7.3.0集群_测试集群_添加中文分词器_导入数据

solr是apache下的一个用于做搜索引擎的高级项目,使用它可以满足绝大部分应用的搜索需求。 主机环境: Linux:centos6.5 JDK:1.8 solr:7.3.0 zookeeper:3.4.8 mmseg4j-solr:2.4.0 1. 创建与启...

特拉仔
04/25
0
0
开源大数据索引项目hive-solr

github地址:https://github.com/qindongliang/hive-solr 欢迎大家fork和使用 关于这个项目的介绍,请参考散仙前面的文章: http://qindongliang.iteye.com/blog/2283862 最新更新: (1)添...

九劫散仙
2016/05/06
232
0
[转]与Lucene 4.10配合的中文分词比较(标准详细的比较)

本文转自: http://www.hansight.com/blog-lucene4.10-with-chinese-segment.html 感谢原作者。 比较目的 衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。 分...

狮子的魂
2015/01/18
7.7K
7
mmseg4j-1.9 solr4 bug 处理

目前 中文分词mmseg4j 在 solr4 下是不能正常工作的。 解决方法可简单了, 只是solr4 接口有点变化 。 中文分词mmseg4插件的作者 没及时的跟上"solr4 接口"变化。 虽然分词算法是对的,添加的...

空_明
2014/04/01
0
0
中文分词器--mmseg4j

1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。......

chenlb
2009/09/26
31.4K
3

没有更多内容

加载失败,请刷新页面

加载更多

设计模式之 明确责任 观察者模式 状态模式 责任链模式

观察者模式是任务分发的一种模式。 如果认为我们设计的系统的各个模块(或子系统)的最终目的是完成共同任务,那么这个任务如何分配到多个模块的就是我们遇到的第一个问题。简单设计场合我们...

backbye
12分钟前
2
0
14-利用思维导图梳理JavaSE-大汇总

14-利用思维导图梳理JavaSE-Java基础知识大汇总 主要内容 1.对象入门 2.一切都是对象 3.程序流程控制 4.初始化和消除 5.权限访问控制 6.复用类 7.多态 8.接口与抽象类 9.内部类 10.容器 11.异...

飞鱼说编程
48分钟前
5
0
利用Lombok编写优雅的spring依赖注入代码,去掉繁人的@Autowired

大家平时使用spring依赖注入,都是怎么写的? @Servicepublic class OrderService { @Autowired private UserService userService;} 是不是很熟悉的感觉?但是呢 如果你用...

HeyS1
55分钟前
23
0
IBATIS 写BLOB字段遇到的问题

1、 首先遇到的配置问题,通过设置typeHandler 来支持写入。接下来由此引出了事务的问题。 <typeHandler jdbcType="BLOB" javaType="[B" callback="org.springframework.orm.ibatis.support....

echo-neo
今天
1
0
37. Sudoku Solver

Description tags: backtrack,hash table difficulty: hard Write a program to solve a Sudoku puzzle by filling the empty cells.A sudoku solution must satisfy all of the following......

52iSilence7
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部