文档章节

SolrCloud (jetty) 添加mmseg4j 分词

KongFanhao
 KongFanhao
发布于 2016/07/11 19:26
字数 396
阅读 77
收藏 2

本文环境是建立在solr集群上面的,未搭建环境的小伙伴可以移步至:http://my.oschina.net/u/2561483/blog/704307

1. 下载mmseg4j的jar包

需要两个jar : mmseg4j-core-1.10.0.jar   mmseg4j-solr-2.3.0.jar

2. 加载jar包

将jar 放到solr集群中,下面的节点都要放。具体放在 我的目录是:/root/solr-5.4.0/dist

然后配置solr参数 在你创建的collection的配置文件solrconfig.xml中加入

比如我的是~/solr_home/webpage/conf/ 下面的solrconfig.xml:

 <lib dir="${solr.install.dir:../../../..}/dist/" regex=".*\.jar" />

在创建collection的时候将dist下面的jar包加载进去

配置schema.xml 加入自定义的字段 和分词类型:

    <!-- mmseg4j -->
    <fieldType name="text_zh" class="solr.TextField" positionIncrementGap="100">
    <span style="white-space:pre">    </span><analyzer>
    <span style="white-space:pre">        </span><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" />
    <span style="white-space:pre">    </span></analyzer>
    </fieldType>

<field name="my_content" type="text_zh" indexed="true" stored="false" multiValued="true"/>

3.  solrcloud命令创建collection:

./bin/solr create_collection -c students -d server/solr/configsets/sample_techproducts_configs/conf -shards 3 -replicationFactor 3

4. 可以到solr管理界面查看

点这个schema browser 搜索你自定义的字段 my_content 可以查看状态了。

这说明字段都添加成功了。

还可以检查分词的效果,在solr 管理界面左侧边栏选 项,输入测试语句,点击Analyse Values就可以啦:

出现这样的效果说明分词成功~

© 著作权归作者所有

共有 人打赏支持
KongFanhao
粉丝 5
博文 76
码字总数 42265
作品 0
海淀
程序员
私信 提问
创建solr7.3.0集群_测试集群_添加中文分词器_导入数据

solr是apache下的一个用于做搜索引擎的高级项目,使用它可以满足绝大部分应用的搜索需求。 主机环境: Linux:centos6.5 JDK:1.8 solr:7.3.0 zookeeper:3.4.8 mmseg4j-solr:2.4.0 1. 创建与启...

特拉仔
2018/04/25
0
0
开源大数据索引项目hive-solr

github地址:https://github.com/qindongliang/hive-solr 欢迎大家fork和使用 关于这个项目的介绍,请参考散仙前面的文章: http://qindongliang.iteye.com/blog/2283862 最新更新: (1)添...

九劫散仙
2016/05/06
232
0
[转]与Lucene 4.10配合的中文分词比较(标准详细的比较)

本文转自: http://www.hansight.com/blog-lucene4.10-with-chinese-segment.html 感谢原作者。 比较目的 衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。 分...

狮子的魂
2015/01/18
7.8K
7
mmseg4j-1.9 solr4 bug 处理

目前 中文分词mmseg4j 在 solr4 下是不能正常工作的。 解决方法可简单了, 只是solr4 接口有点变化 。 中文分词mmseg4插件的作者 没及时的跟上"solr4 接口"变化。 虽然分词算法是对的,添加的...

空_明
2014/04/01
0
0
中文分词器--mmseg4j

1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。......

chenlb
2009/09/26
31.4K
3

没有更多内容

加载失败,请刷新页面

加载更多

详解webpack-dev-server的简单使用

webpack-dev-server是一个小型的Node.js Express服务器,它使用webpack-dev-middleware来服务于webpack的包,除此自外,它还有一个通过Sock.js来连接到服务器的微型运行时. 我们来看一下下面的...

前端攻城老湿
21分钟前
0
0
深度解析JavaScript事件对象

这篇文章主要介绍了JavaScript事件对象,结合实例形式深入分析了javascript DOM、IE及其他浏览器相关事件对象操作技巧与注意事项,写的十分的全面细致,具有一定的参考价值,对此有需要的朋友可...

前端攻城小牛
22分钟前
0
0
Android下拉刷新开源框架

添加依赖 //下拉刷新 implementation 'com.jcodecraeer:xrecyclerview:1.5.9' xml引用 <com.jcodecraeer.xrecyclerview.XRecyclerView android:id="@+id/act_xrecycler......

lanyu96
29分钟前
0
0
Linux内核中ioremap映射的透彻理解

几乎每一种外设都是通过读写设备上的寄存器来进行的,通常包括控制寄存器、状态寄存器和数据寄存器三大类,外设的寄存器通常被连续地编址。根据CPU体系结构的不同,CPU对IO端口的编址方式有两...

天王盖地虎626
32分钟前
1
0
Collection中的之retainAll()方法的理解

//在jdkapi中的方法,说明返回值为boolean类型, boolean retainAll(Collection<?> c) ; //api中给的注释 //Retains only the elements in this list that are contained in the specified......

南桥北木
35分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部