文档章节

7步从零开始搭建一个SOLR支持中文分词【solr3.3】

abcijkxyz
 abcijkxyz
发布于 2016/07/08 16:31
字数 499
阅读 1
收藏 0
点赞 0
评论 0

下载如下三个软件【请注意版本】

1:Solr的下载地址
http://labs.renren.com/apache-mirror//lucene/solr/3.3.0/apache-solr-3.3.0.zip 【使用 D:\solr\apache-solr-3.3.0\example\solr文件夹里的内容】
2:Tomcat的下载地址
http://apache.etoak.com/tomcat/tomcat-6/v6.0.33/bin/apache-tomcat-6.0.33.tar.gz 【使用其运行JAVA WEB】
3:IKAnalyzer下载地址
http://ik-analyzer.googlecode.com/files/IKAnalyzer3.2.8%20bin.zip 【只使用其IKAnalyzer3.2.5Stable.jar】

提前是安装好JDK1.6+,并将每个软件解压到 /sinykk 里


1、将TOMCAT解压到 /usr/local/apache-tomcat-6.0.33/ 

2、将 /solr/apache-solr-3.3.0/example/solr 文件拷贝到 /usr/local/apache-tomcat-6.0.33/

3、然后修改TOMCAT的/usr/local/apache-tomcat-6.0.33/conf/server.xml【增加中文支持】

Xml代码   收藏代码
  1. <Connector port="8983" protocol="HTTP/1.1"   
  2.               connectionTimeout="20000"   
  3.               redirectPort="8443" URIEncoding="UTF-8"/>  

 

 4、添加文件 /usr/local/apache-tomcat-6.0.33/conf/Catalina/localhost/solr.xml 内容如下

 

 

Xml代码   收藏代码
  1. <?xml version="1.0" encoding="UTF-8"?>  
  2. <Context docBase="/usr/local/apache-tomcat-6.0.33/webapps/solr" debug="0" crossContext="true" >  
  3.    <Environment name="solr/home" type="java.lang.String" value="/usr/local/apache-tomcat-6.0.33/solr" override="true" />  
  4. </Context>  
 

5、将/sinykk/solr/apache-solr-3.3.0/example/webapps/solr.war文件放到/usr/local/apache-tomcat-6.0.33/webapps文件夹下,并启动TOMCAT

6、将/sinykk/solr/IKAnalyzer3.2.8.jar 文件放到/usr/local/apache-tomcat-6.0.33/webapps/solr/WEB-INF/lib 目录下


7、修改/usr/local/apache-tomcat-6.0.33/solr/conf/schema.xml文件为

 

Xml代码   收藏代码
  1. <?xml version="1.0" encoding="UTF-8" ?>  
  2. <schema name="example" version="1.4">  
  3.  <types>  
  4.     <fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/>  
  5.      <!--   
  6.     <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">  
  7.       <analyzer type="index">  
  8.         <tokenizer class="solr.StandardTokenizerFactory"/>  
  9.         <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />  
  10.         <filter class="solr.LowerCaseFilterFactory"/>  
  11.       </analyzer>  
  12.       <analyzer type="query">  
  13.         <tokenizer class="solr.StandardTokenizerFactory"/>  
  14.         <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />  
  15.         <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>  
  16.         <filter class="solr.LowerCaseFilterFactory"/>  
  17.       </analyzer>  
  18.     </fieldType>  
  19.     -->  
  20.   
  21.      <fieldType name="textik" class="solr.TextField" >  
  22.                <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>    
  23.          
  24.                <analyzer type="index">    
  25.                    <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>    
  26.                    <filter class="solr.StopFilterFactory"    
  27.                            ignoreCase="true" words="stopwords.txt"/>    
  28.                    <filter class="solr.WordDelimiterFilterFactory"    
  29.                            generateWordParts="1"    
  30.                            generateNumberParts="1"    
  31.                            catenateWords="1"    
  32.                            catenateNumbers="1"    
  33.                            catenateAll="0"    
  34.                            splitOnCaseChange="1"/>    
  35.                    <filter class="solr.LowerCaseFilterFactory"/>    
  36.                    <filter class="solr.EnglishPorterFilterFactory"    
  37.                        protected="protwords.txt"/>    
  38.                    <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>    
  39.                </analyzer>    
  40.                 <analyzer type="query">    
  41.                    <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>    
  42.                    <filter class="solr.StopFilterFactory"    
  43.                            ignoreCase="true" words="stopwords.txt"/>    
  44.                    <filter class="solr.WordDelimiterFilterFactory"    
  45.                            generateWordParts="1"    
  46.                            generateNumberParts="1"    
  47.                            catenateWords="1"    
  48.                            catenateNumbers="1"    
  49.                            catenateAll="0"    
  50.                            splitOnCaseChange="1"/>    
  51.                    <filter class="solr.LowerCaseFilterFactory"/>    
  52.                    <filter class="solr.EnglishPorterFilterFactory"    
  53.                        protected="protwords.txt"/>    
  54.                    <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>    
  55.                </analyzer>    
  56.          
  57. </fieldType>  
  58.  </types>  
  59.   
  60.   
  61.  <fields>  
  62.   <field name="id" type="string" indexed="true" stored="true" required="true" />   
  63.  </fields>  
  64.   
  65.  <uniqueKey>id</uniqueKey>  
  66.   
  67. </schema>  

 

 

最后运行http://192.168.171.129:8983/solr/admin/analysis.jsp

效果图如下

 


 

© 著作权归作者所有

共有 人打赏支持
abcijkxyz
粉丝 60
博文 6195
码字总数 1876
作品 0
深圳
项目经理
Solr环境搭建及IK分词的集成及solrJ的调用(二)

看上一篇请移步到这里:http://my.oschina.net/zimingforever/blog/120732 Solr环境搭建及IK分词的集成及solrJ的调用(一) 这里首先介绍如何做分词,首先solr并没有加入中文分词在里面,所以...

王小明123 ⋅ 2013/04/08 ⋅ 5

solr学习-分词

最近在做一个大数据的项目。需要在前端对用户的上网日志进行检索。由于开发时间短暂,项目急需演示等多种原因,最后决定使用solr作为检索引擎。将用户的上网日志导入solr中进行检索。 现在通...

jeff_han ⋅ 2014/03/04 ⋅ 0

Solr环境搭建及IK分词的集成及solrJ的调用(一)

项目需要,最近在做使用solr进行搜索的项目。 solr是一个基于lucene的java开发的搜索服务器,简单点说solr是一个已经完成的war包,直接部署起来即可。 solr的安装比较简单,但是第一次使用,...

王小明123 ⋅ 2013/04/08 ⋅ 0

大数据下精确快速搜索OpenSearch

相信做过一两个项目的人都会遇到上级要求做一个类似百度或者谷歌的站内搜索功能。传统的sql查询只能使用like 或者FINDINSET来实现、后者性能稍微好点但是必须要逗号分隔才可以实现匹配、甚至...

小柒2012 ⋅ 2014/10/11 ⋅ 1

使用solr搭建你的全文检索

文章来源:http://www.blogjava.net/RongHao/archive/2007/11/06/158621.html Solr Solr 是一个可供企业使用的、基于 Lucene 的开箱即用的搜索服务器。 一、solr介绍 solr是基于Lucene Java...

hiqj ⋅ 2014/04/18 ⋅ 0

m631521383/IKAnalyzer2017_6_6_0

IKAnalyzer201766_0 码云:https://git.oschina.net/iicode/IKAnalyzer2017660 Github:https://github.com/ittalks/IKAnalyzer2017660 IKAnalyzer2017660.jar:https://github.com/ittalks/IK......

m631521383 ⋅ 2017/09/15 ⋅ 0

Java中文分词组件 - word分词

Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数...

杨尚川 ⋅ 2014/04/29 ⋅ 46

Solr Apache Solr 初级教程(介绍、安装部署、Java接口、中文分词)

Apache Solr 介绍 Solr 是什么? Solr 是一个开源的企业级搜索服务器,底层使用易于扩展和修改的Java 来实现。服务器通信使用标准的HTTP 和XML,所以如果使用Solr 了解Java 技术会有用却不是...

David_Tio ⋅ 2013/12/05 ⋅ 0

Solr的安装部署及简单使用

由于demo项目使用的是maven构建,maven仓库用的是oschina的,此时solr的最新版本是5.4,而oschina中的solrj最新版本是5.3.1,所以我们为了保持一致性,也将下载5.3.1的solr作为演示 一、下载...

Fraud ⋅ 2016/01/05 ⋅ 0

一步一步学solr:在开始前我们应该明白什么

我就用自己的项目来讲solr应用了,当然他的功能很多,大家可以看这里 http://my.oschina.net/fengnote/blog/288581 功能那是相当的多。 solr可以理解为与应用分离的一个搜索服务,我们要搭建...

王爵nice ⋅ 2014/07/23 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

JavaScript零基础入门——(八)JavaScript的数组

JavaScript零基础入门——(八)JavaScript的数组 欢迎大家回到我们的JavaScript零基础入门,上一节课我们讲了有关JavaScript正则表达式的相关知识点,便于大家更好的对字符串进行处理。这一...

JandenMa ⋅ 今天 ⋅ 0

sbt网络问题解决方案

转自:http://dblab.xmu.edu.cn/blog/maven-network-problem/ cd ~/.sbt/launchers/0.13.9unzip -q ./sbt-launch.jar 修改 vi sbt/sbt.boot.properties 增加一个oschina库地址: [reposit......

狐狸老侠 ⋅ 今天 ⋅ 0

大数据,必须掌握的10项顶级安全技术

我们看到越来越多的数据泄漏事故、勒索软件和其他类型的网络攻击,这使得安全成为一个热门话题。 去年,企业IT面临的威胁仍然处于非常高的水平,每天都会看到媒体报道大量数据泄漏事故和攻击...

p柯西 ⋅ 今天 ⋅ 0

Linux下安装配置Hadoop2.7.6

前提 安装jdk 下载 wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz 解压 配置 vim /etc/profile # 配置java环境变量 export JAVA_HOME=/opt/jdk1......

晨猫 ⋅ 今天 ⋅ 0

crontab工具介绍

crontab crontab 是一个用于设置周期性被执行的任务工具。 周期性执行的任务列表称为Cron Table crontab(选项)(参数) -e:编辑该用户的计时器设置; -l:列出该用户的计时器设置; -r:删除该...

Linux学习笔记 ⋅ 今天 ⋅ 0

深入Java多线程——Java内存模型深入(2)

5. final域的内存语义 5.1 final域的重排序规则 1.对于final域,编译器和处理器要遵守两个重排序规则: (1)在构造函数内对一个final域的写入,与随后把这个被构造对象的引用赋值给一个引用...

江左煤郎 ⋅ 今天 ⋅ 0

面试-正向代理和反向代理

面试-正向代理和反向代理 Nginx 是一个高性能的反向代理服务器,但同时也支持正向代理方式的配置。

秋日芒草 ⋅ 今天 ⋅ 0

Spring 依赖注入(DI)

1、Setter方法注入: 通过设置方法注入依赖。这种方法既简单又常用。 类中定义set()方法: public class HelloWorldOutput{ HelloWorld helloWorld; public void setHelloWorld...

霍淇滨 ⋅ 昨天 ⋅ 0

马氏距离与欧氏距离

马氏距离 马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量之间的差异程度。 如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也...

漫步当下 ⋅ 昨天 ⋅ 0

聊聊spring cloud的RequestRateLimiterGatewayFilter

序 本文主要研究一下spring cloud的RequestRateLimiterGatewayFilter GatewayAutoConfiguration @Configuration@ConditionalOnProperty(name = "spring.cloud.gateway.enabled", matchIfMi......

go4it ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部