文档章节

SolrCloud (jetty) 添加mmseg4j 分词

KongFanhao
 KongFanhao
发布于 2016/07/11 19:26
字数 396
阅读 69
收藏 2
点赞 0
评论 0

本文环境是建立在solr集群上面的,未搭建环境的小伙伴可以移步至:http://my.oschina.net/u/2561483/blog/704307

1. 下载mmseg4j的jar包

需要两个jar : mmseg4j-core-1.10.0.jar   mmseg4j-solr-2.3.0.jar

2. 加载jar包

将jar 放到solr集群中,下面的节点都要放。具体放在 我的目录是:/root/solr-5.4.0/dist

然后配置solr参数 在你创建的collection的配置文件solrconfig.xml中加入

比如我的是~/solr_home/webpage/conf/ 下面的solrconfig.xml:

 <lib dir="${solr.install.dir:../../../..}/dist/" regex=".*\.jar" />

在创建collection的时候将dist下面的jar包加载进去

配置schema.xml 加入自定义的字段 和分词类型:

    <!-- mmseg4j -->
    <fieldType name="text_zh" class="solr.TextField" positionIncrementGap="100">
    <span style="white-space:pre">    </span><analyzer>
    <span style="white-space:pre">        </span><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" />
    <span style="white-space:pre">    </span></analyzer>
    </fieldType>

<field name="my_content" type="text_zh" indexed="true" stored="false" multiValued="true"/>

3.  solrcloud命令创建collection:

./bin/solr create_collection -c students -d server/solr/configsets/sample_techproducts_configs/conf -shards 3 -replicationFactor 3

4. 可以到solr管理界面查看

点这个schema browser 搜索你自定义的字段 my_content 可以查看状态了。

这说明字段都添加成功了。

还可以检查分词的效果,在solr 管理界面左侧边栏选 项,输入测试语句,点击Analyse Values就可以啦:

出现这样的效果说明分词成功~

© 著作权归作者所有

共有 人打赏支持
KongFanhao
粉丝 5
博文 75
码字总数 42265
作品 0
海淀
程序员
创建solr7.3.0集群_测试集群_添加中文分词器_导入数据

solr是apache下的一个用于做搜索引擎的高级项目,使用它可以满足绝大部分应用的搜索需求。 主机环境: Linux:centos6.5 JDK:1.8 solr:7.3.0 zookeeper:3.4.8 mmseg4j-solr:2.4.0 1. 创建与启...

特拉仔 ⋅ 04/25 ⋅ 0

开源大数据索引项目hive-solr

github地址:https://github.com/qindongliang/hive-solr 欢迎大家fork和使用 关于这个项目的介绍,请参考散仙前面的文章: http://qindongliang.iteye.com/blog/2283862 最新更新: (1)添...

九劫散仙 ⋅ 2016/05/06 ⋅ 0

[转]与Lucene 4.10配合的中文分词比较(标准详细的比较)

本文转自: http://www.hansight.com/blog-lucene4.10-with-chinese-segment.html 感谢原作者。 比较目的 衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。 分...

狮子的魂 ⋅ 2015/01/18 ⋅ 7

中文分词器--mmseg4j

1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。......

chenlb ⋅ 2009/09/26 ⋅ 3

mmseg4j-1.9 solr4 bug 处理

目前 中文分词mmseg4j 在 solr4 下是不能正常工作的。 解决方法可简单了, 只是solr4 接口有点变化 。 中文分词mmseg4插件的作者 没及时的跟上"solr4 接口"变化。 虽然分词算法是对的,添加的...

空_明 ⋅ 2014/04/01 ⋅ 0

Tomcat 7.0 配置 solr 4.7.2 全过程

Win7 Tomcat 7.0 配置 solr 4.7.2 全过程 http://994582796.iteye.com/blog/2215716 Win7 下 Tomcat7 +solr4.7 配置全过程 帮助文档:XXXsolr-4.7.2docs下的tutorial.html或者index.html 或者......

994582796 ⋅ 2015/05/31 ⋅ 0

solr学习-分词

最近在做一个大数据的项目。需要在前端对用户的上网日志进行检索。由于开发时间短暂,项目急需演示等多种原因,最后决定使用solr作为检索引擎。将用户的上网日志导入solr中进行检索。 现在通...

jeff_han ⋅ 2014/03/04 ⋅ 0

Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器

Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器 1、新建一个文件夹命名为Solr并在里面建两个文件夹分别命名为home和server。 2、将下载的Solr包解压进入example的solr文件夹中拷贝其中的内容...

一枚Sir ⋅ 2014/04/10 ⋅ 1

Java开源项目cws_evaluation:中文分词器分词效果评估

cwsevaluation 是一个Java开源项目,用于对Java中文分词器分词效果进行评估。 cwsevaluation 是通过对前文《word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估》中写的...

杨尚川 ⋅ 2014/08/30 ⋅ 5

MMseg或Solr,对html代码支持分词吗

前台页面添加 "金属 > 金属丝" 入库, ">" 被转义成 ">", 之后创建索引, 也变成 "金属 > 金属丝", 我使用MMseg4j分词,我想分成 三个词 1.金属 2.> 3.金属丝 我试了不行, 请问有高手指教...

ThomasMan ⋅ 2013/03/19 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Jenkins实践3 之脚本

#!/bin/sh# export PROJ_PATH=项目路径# export TOMCAT_PATH=tomcat路径killTomcat(){pid=`ps -ef | grep tomcat | grep java|awk '{print $2}'`echo "tom...

晨猫 ⋅ 今天 ⋅ 0

Spring Bean的生命周期

前言 Spring Bean 的生命周期在整个 Spring 中占有很重要的位置,掌握这些可以加深对 Spring 的理解。 首先看下生命周期图: 再谈生命周期之前有一点需要先明确: Spring 只帮我们管理单例模...

素雷 ⋅ 今天 ⋅ 0

zblog2.3版本的asp系统是否可以超越卢松松博客的流量[图]

最近访问zblog官网,发现zlbog-asp2.3版本已经进入测试阶段了,虽然正式版还没有发布,想必也不久了。那么作为aps纵横江湖十多年的今天,blog2.2版本应该已经成熟了,为什么还要发布这个2.3...

原创小博客 ⋅ 今天 ⋅ 0

聊聊spring cloud的HystrixCircuitBreakerConfiguration

序 本文主要研究一下spring cloud的HystrixCircuitBreakerConfiguration HystrixCircuitBreakerConfiguration spring-cloud-netflix-core-2.0.0.RELEASE-sources.jar!/org/springframework/......

go4it ⋅ 今天 ⋅ 0

二分查找

二分查找,也称折半查找、二分搜索,是一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜素过程结束;如果某一特定元素大于...

人觉非常君 ⋅ 今天 ⋅ 0

VS中使用X64汇编

需要注意的是,在X86项目中,可以使用__asm{}来嵌入汇编代码,但是在X64项目中,再也不能使用__asm{}来编写嵌入式汇编程序了,必须使用专门的.asm汇编文件来编写相应的汇编代码,然后在其它地...

simpower ⋅ 今天 ⋅ 0

ThreadPoolExecutor

ThreadPoolExecutor public ThreadPoolExecutor(int corePoolSize, int maximumPoolSize, long keepAliveTime, ......

4rnold ⋅ 昨天 ⋅ 0

Java正无穷大、负无穷大以及NaN

问题来源:用Java代码写了一个计算公式,包含除法和对数和取反,在页面上出现了-infinity,不知道这是什么问题,网上找答案才明白意思是负的无穷大。 思考:为什么会出现这种情况呢?这是哪里...

young_chen ⋅ 昨天 ⋅ 0

前台对中文编码,后台解码

前台:encodeURI(sbzt) 后台:String param = URLDecoder.decode(sbzt,"UTF-8");

west_coast ⋅ 昨天 ⋅ 0

实验楼—MySQL基础课程-挑战3实验报告

按照文档要求创建数据库 sudo sercice mysql startwget http://labfile.oss.aliyuncs.com/courses/9/createdb2.sqlvim /home/shiyanlou/createdb2.sql#查看下数据库代码 代码创建了grade......

zhangjin7 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部