SolrCloud (jetty) 添加mmseg4j 分词
SolrCloud (jetty) 添加mmseg4j 分词
KongFanhao 发表于2年前
SolrCloud (jetty) 添加mmseg4j 分词
  • 发表于 2年前
  • 阅读 63
  • 收藏 2
  • 点赞 0
  • 评论 0

标题:腾讯云 新注册用户域名抢购1元起>>>   

摘要: 以为公司要用solr集群,所以我自己搭建了整个solr集群,在添加分词的时候几经周折 终于是成功了。 本人做solr集群的时候添加中文分词的一个简单的记录,希望对大家有个参考。

本文环境是建立在solr集群上面的,未搭建环境的小伙伴可以移步至:http://my.oschina.net/u/2561483/blog/704307

1. 下载mmseg4j的jar包

需要两个jar : mmseg4j-core-1.10.0.jar   mmseg4j-solr-2.3.0.jar

2. 加载jar包

将jar 放到solr集群中,下面的节点都要放。具体放在 我的目录是:/root/solr-5.4.0/dist

然后配置solr参数 在你创建的collection的配置文件solrconfig.xml中加入

比如我的是~/solr_home/webpage/conf/ 下面的solrconfig.xml:

 <lib dir="${solr.install.dir:../../../..}/dist/" regex=".*\.jar" />

在创建collection的时候将dist下面的jar包加载进去

配置schema.xml 加入自定义的字段 和分词类型:

    <!-- mmseg4j -->
    <fieldType name="text_zh" class="solr.TextField" positionIncrementGap="100">
    <span style="white-space:pre">    </span><analyzer>
    <span style="white-space:pre">        </span><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" />
    <span style="white-space:pre">    </span></analyzer>
    </fieldType>

<field name="my_content" type="text_zh" indexed="true" stored="false" multiValued="true"/>

3.  solrcloud命令创建collection:

./bin/solr create_collection -c students -d server/solr/configsets/sample_techproducts_configs/conf -shards 3 -replicationFactor 3

4. 可以到solr管理界面查看

点这个schema browser 搜索你自定义的字段 my_content 可以查看状态了。

这说明字段都添加成功了。

还可以检查分词的效果,在solr 管理界面左侧边栏选 项,输入测试语句,点击Analyse Values就可以啦:

出现这样的效果说明分词成功~

共有 人打赏支持
粉丝 4
博文 75
码字总数 42265
×
KongFanhao
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: