文档章节

ElasticSearch5中文分词(IK)

刺猬一号
 刺猬一号
发布于 2017/03/16 13:37
字数 690
阅读 52
收藏 0

ElasticSearch安装

官网:https://www.elastic.co

1.ElasticSearch安装

1.1.下载安装公共密钥

rpm --import https://artifacts.elastic.co/GPG-KEY-elasticsearch

1.2.在 /etc/yum.repos.d/ 目录下建立 elasticsearch.repo 文件

vim /etc/yum.repos.d/elasticsearch.repo

在文件中写入:

复制代码

[elasticsearch-5.x]
name=Elasticsearch repository for 5.x packages
baseurl=https://artifacts.elastic.co/packages/5.x/yum
gpgcheck=1
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
enabled=1
autorefresh=1
type=rpm-md

复制代码

保存退出

1.3.使用yum安装 

yum install elasticsearch

1.4.添加系统服务

chkconfig --add elasticsearch
service elasticsearch start  //启动
service elasticsearch stop  //关闭
service elasticsearch status//查看状态

启动后访问 localhost:9200  得到

复制代码

{
  "name" : "Cp8oag6",
  "cluster_name" : "elasticsearch",
  "cluster_uuid" : "AT69_T_DTp-1qgIJlatQqA",
  "version" : {
    "number" : "5.0.1",
    "build_hash" : "f27399d",
    "build_date" : "2016-11-21T09:51:41.449Z",
    "build_snapshot" : false,
    "lucene_version" : "6.2.1"
  },
  "tagline" : "You Know, for Search"
}

复制代码

2 安装ik中文分词插件

2.1 ik git地址 https://github.com/medcl/elasticsearch-analysis-ik

克隆ik

git clone https://github.com/medcl/elasticsearch-analysis-ik
git checkout tags/v5.0.1 切换版本 版本号可以修改

2.2 通过java工具打包  

mvn package

如果提示 mvn 不存在看下面

打包后  在  target/releases/  这个路径下面 有一个 elasticsearch-analysis-ik-{version}.zip 这个文件  将这个压缩文件复制到  ElasticSearch 下plugins/ik 目录下 然后解压

我的 plugins 目录是  /usr/share/elasticsearch/plugins  这个路

建立 ik 目录

mkdir /usr/share/elasticsearch/plugins/ik

复制文件 

cp  ./target/releases/elasticsearch-analysis-ik-{version}.zip  /usr/share/elasticsearch/plugins/ik

解压

cd /usr/share/elasticsearch/plugins/ik
unzip elasticsearch-analysis-ik-{version}.zip

2.3 将ik 插件 安装到 ElasticSearch中

创建索引m8:

http put 'http://localhost:9200/m8'

如果提示http put不存在看下面

为索引(m8)及类型(logs)下的字段(message)设置分词器(分词器可选ik_smart或ik_max_word):

复制代码

http put localhost:9200/m8 -d '{
    "settings" : {
        "analysis" : {
            "analyzer" : {
                "ik" : {
                    "tokenizer" : "ik_smart"
                }
            }
        }
    },
    "mappings" : {
        "logs" : {
            "dynamic" : true,
            "properties" : {
                "message" : {
                    "type" : "string",
                    "analyzer" : "ik_smart"
                }
            }
        }
    }
}'

复制代码

案例

http://192.168.199.115:9200/m8/_analyze?analyzer=ik_max_word&text=南京市长江大桥

结果

参数说明:

ik_max_word: 会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合;

ik_smart: 会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

 

mvn 不存在看下面 解决:

1.安装java的jdk

官网下载地址http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html  

 下载rpm包:

wget  http://download.oracle.com/otn-pub/java/jdk/8u111-b14/jdk-8u111-linux-x64.rpm?AuthParam=1479708556_19e817839b0ee72d40569ae8a23689d0

安装:

rpm  -ivh jdk-8u111-linux-x64.rpm

设置环境变量:

vim  /etc/profile

在最后添加

JAVA_HOME=/usr/java/jdk1.8.0_111
JRE_HOME=/usr/java/jdk1.8.0_111/jre
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export JAVA_HOME JRE_HOME PATH CLASSPATH

立即生效:

source /etc/profile

验证:

java -version

 

 

安装 maven 就是 mvn 命令 他需要java 才能运行

wget http://repos.fedorapeople.org/repos/dchen/apache-maven/epel-apache-maven.repo -O /etc/yum.repos.d/epel-apache-maven.repo
yum -y install apache-maven

http put不存在问题:

yum install httpie

© 著作权归作者所有

刺猬一号
粉丝 12
博文 373
码字总数 616361
作品 0
深圳
私信 提问
Solr环境搭建及IK分词的集成及solrJ的调用(二)

看上一篇请移步到这里:http://my.oschina.net/zimingforever/blog/120732 Solr环境搭建及IK分词的集成及solrJ的调用(一) 这里首先介绍如何做分词,首先solr并没有加入中文分词在里面,所以...

王小明123
2013/04/08
3.7K
5
Elasticsearch入门和查询语法分析(ik中文分词)

全文搜索现在已经是很常见的功能了,当然你也可以用mysql加Sphinx实现。但开源的Elasticsearch(简称ES)目前是全文搜索引擎的首选。目前像GitHub、维基百科都使用的是ES,它可以快速的存储,...

JohnsonChung
2018/07/11
0
0
中文分词工具

中文分词工具非常繁多,主要与大家分享其中几个工具,这是本人第一次接触中文分词工具,望轻喷。 中文分词工具: 1、IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。...

阿阿阿阿阿局
2016/05/10
540
0
Elasticsearch 使用中文分词

原文出处:Way Lau 本文演示了如何使用IK Analysis 插件来实现在 Elasticsearch 中的中文分词功能。 使用中文分词 在“Spring Boot应用企业级博客系统”课程中(http://coding.imooc.com/cla...

Way Lau
2017/12/17
0
0
elasticsearch安装ik中文分词插件

在这里我将介绍一下如何给elasticsearch安装ik中文分词插件。 注意:选择的elasticsearch和ik版本要正确,否则会出现错误。在这里我选择的是elasticsearch1.4.0和ik1.2.9版本。 所需要的文件...

人来疯啊
2016/04/14
606
0

没有更多内容

加载失败,请刷新页面

加载更多

关于AsyncTask的onPostExcute方法是否会在Activity重建过程中调用的问题

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/XG1057415595/article/details/86774575 假设下面一种情况...

shzwork
今天
6
0
object 类中有哪些方法?

getClass(): 获取运行时类的对象 equals():判断其他对象是否与此对象相等 hashcode():返回该对象的哈希码值 toString():返回该对象的字符串表示 clone(): 创建并返此对象的一个副本 wait...

happywe
今天
6
0
Docker容器实战(七) - 容器中进程视野下的文件系统

前两文中,讲了Linux容器最基础的两种技术 Namespace 作用是“隔离”,它让应用进程只能看到该Namespace内的“世界” Cgroups 作用是“限制”,它给这个“世界”围上了一圈看不见的墙 这么一...

JavaEdge
今天
8
0
文件访问和共享的方法介绍

在上一篇文章中,你了解到文件有三个不同的权限集。拥有该文件的用户有一个集合,拥有该文件的组的成员有一个集合,然后最终一个集合适用于其他所有人。在长列表(ls -l)中这些权限使用符号...

老孟的Linux私房菜
今天
7
0
面试套路题目

作者:抱紧超越小姐姐 链接:https://www.nowcoder.com/discuss/309292?type=3 来源:牛客网 面试时候的潜台词 抱紧超越小姐姐 编辑于 2019-10-15 16:14:56APP内打开赞 3 | 收藏 4 | 回复24 ...

MtrS
今天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部