文档章节

使用ElasticSearch快速搭建数据搜索服务

忆然灬
 忆然灬
发布于 2016/12/08 10:01
字数 1736
阅读 213
收藏 6

1. ElasticSearch?

ElasticSearch 是最近几年Java界少有的当红炸子鸡,在Github上有19663个STAR。ES这两年在各个领域都

有极大的发展,目前看来基本上是无所不能,我想是因为它的工作是数据的存储和索引,而数据是一切程序

的本质,是基石的基石。

最简单的一个用法是搭建数据搜索服务,由于DNA是Lucence系的,很容易做Scoring和Sorting,提供

Reseful的数据接口。配合中文分词Analyzer,可以做中文的全文检索。天生是分布式的。

2. Spring Data ElasticSearch?

Spring Data ElasticSearch是Spring Data 针对ElasticSearch封装的一套框架,目前还是孵化性质,版本之

间变动特别大,其中一部分原因是ElasticSearch也在飞速变化中,直接从V2.4跳跃到V5.0。

虽然S D ES经常整个package被@Deprecate掉,但我个人觉得还是非常适合用来阅读源代码深入学习的:

初始版本聚焦核心功能,内容分支少,容易掌握 变化过程中,也了解专业程序员的设计思路及其取舍

3. 搜索服务搭建

ElasticSearch做数据存储Store、索引Index和检索Query

Spring-Data-ElasticSearch来完成”灌数据“和”取数据“的工作。

4. ES安装方法

ES的安装方法非常简单,下载最新的Bin包,解压即可!!

4.1 安装中文分词插件

插件地址 https://github.com/medcl/elasticsearch-analysis-ik/

下载ES版本对应的IK插件版本,解压到ES的plugins目录下即可。

修改config目录下配置文件elasticsearch.yml如下所示:

index.analysis.analyzer.ik.type : "ik"

index.analysis.analyzer.default.type : "ik"

4.2 安装Head插件

Head是一款非常好用的ElasticSearch数据图形化管理插件,类似于Mysql的NaviCat,安装方式非常简单:

sudo elasticsearch/bin/plugin install mobz/elasticsearch-head

插件安装方法1:

4.2.1.elasticsearch/bin/plugin -install mobz/elasticsearch-head

4.2.2.运行es

4.2.3.打开http://localhost:9200/_plugin/head/

插件安装方法2:

4.2.2.1.https://github.com/mobz/elasticsearch-head 下载zip

4.2.2.2.将zip文件移动至elasticsearch-1.0.0\plugins\并unzip解压

4.2.2.3.用mv命令修改名字elasticsearch-head为head,如有必要需对head赋777权限

4.2.2.4.运行es

4.2.2.5.打开http://localhost:9200/_plugin/head/

5. Spring Data ElasticSearch代码示例

通过注解@Document@Filed,可

以在ES中配置一个可索引的的对象。

在@Document注解中,indexName可以理解为传统关系数据库的DB Name, type可以理解为

Table Name.

@Document(indexName = "db_name", type = "table_name")

public class Item {

private String id;

@Field(analyzer = "ik", searchAnalyzer = "ik", type = FieldType.String)

private String name;

}

Spring Data Repository风格的Dao实现:

@Repository

public interface ItemDao extends ElasticsearchRepository<Item, String> {}

实现索引和查询的简单代码示例:

@Service

public class ItemService {

@Autowired private ItemDao itemDao;

@Autowired private ElasticsearchTemplate et;

public void indexItem() {

Item item = new Item("id", "name");

// 配合注解,一句话实现索引 itemDao.save(item); }

public Page<Item> search(String word, int page, int pageSize) {

// ES原生的模糊查询API SDE中

CriteriaQuery.Contains的实现 QueryBuilder queryBuilder =

queryStringQuery(word).

field("name").

analyzeWildcard(true).

boost(2f); SearchQuery searchQuery = new

NativeSearchQueryBuilder(). withQuery(queryBuilder). withPageable(new PageRequest(page,

pageSize)). withMinScore(0.01f). build();

return et.queryForPage(searchQuery, Item.class); } }

附录: Spring Data ElasticSearch 源码阅读笔记

基本上看到这里,使用上已经足够,下面这些是我当时读源码时的一些笔记,比较散乱,感兴趣的可以看看。

1. 源码目录结构

五个主要package,分别是

**annotations:**各种注解,主要用到的是@Document 和 @Field

**client:**NodeClient 和 TransportClinet,用后者,前者是个玩具

**config:**配置包,随便看看

**core:**核心包,Query和Index主要功能包,重点看

repository: spring data的repository接口包,主要是和ES交互,随便看看

2. Core 包

2.1 Query 接口

Query 有两个直接子接口: SeachQuery 和抽象类 AbstractQuery,且两者有个共同的实现类

NativeSearchQuery,这个类需要重点关注下。

SearchQuery里的Facet 被干掉了,暴露了Query和Filter的builder。同时暴露了HightlightFileds,

ScriptFields,IndexBoost之类的细节。

抽象类AbstractQuery implements Query 接口. (没有一个方法是Abstract的,理论上已经完全实现

Query接口)

StringQuery,AbstractQuery的一个子类,增加了一个属性,Source。打酱油的,可以忽略。

AbstractQuery的子类:CriteriaQuery,非常重要的一个类。封装一个Fluent API Style的Criteria,能做

where, and, or, is, contains, startsWith, endsWith, not, contains, expression …… 等各种常用操作。

2.1.2 Criteria类

标准Spring Data风格的Criteria查询基础类

构造函数管理的对象是Field(只有一个属性name),还会有个Arraylist的CriteriaChain,存储一系列的

CriteriaEntry用来生成查询语句

OrCriteria用来处理“或”条件,继承自Criteria,区别是 override 了 ConjunctionOperator

Criteria的contains,startsWith,endsWith等方法, 参数不接受空格

not方法,是将negating参数置为true

Criteria还支持Location GeoBox Bounding Box 查询(厉害,经纬度的查询)

CriteriaEntry的实现原理是转换成原生的ElasticSearch Query Java API,转换介质是枚举变量

public enum OperationKey {

EQUALS, CONTAINS, STARTS_WITH, ENDS_WITH, EXPRESSION, BETWEEN, FUZZY, IN, NOT_IN, WITHIN,

BBOX, NEAR, LESS, LESS_EQUAL, GREATER, GREATER_EQUAL;

}

boost 是干啥的? postive hit with given factor

filter是干啥的? 用在Geo Location(地理信息)的查询中

2.1.3 CriteriaQuery类

封装了Criteria,没啥好说的。

2.1.4 NativeSearchQuery

它封装了ES里的QueryBuilder和SortBuilder,因此可以将Spring Data风格的Query转换过ElasticSearch

的原生Query API,想要实现高度定制化的查询,全靠这个类。Spring Data ES提供有配套Builder.

2.1.5 ElasticSearchTemplate

继承自ElasticsearchOperations接口,是标准的Spring Data风格封装。

2.1.5.1 ElasticsearchOperations

主要包含以下几个方面的功能

索引的 创建

Mapping的创建(对indexName(database)和 Type (table)的Mapping,目前不知道是干啥的)

获取IndexName的Setting (数据格式是一个map)

常规的QueryForObject, QueryForPage等操作

count, multiGet

update, index, delete

scan, scroll

几个特殊的Query:MoreLikeThisQuery,AliasQuery

2.1.5.2 EST的实现

封装了一个ES的Client, 能完成index,mapping,setting相关的request请求

2.1.5.3 queryForPage实现

创建Query和Filter两个QueryBuilder(ES的),其中Query用于普通字段的查询,Filter用于Geo Location

数据的查询。

Query-QuerBuidler里是根据CriteriaEntry和前面列举的枚举变量OperationKey转换成ES原生的

queryStringQuery,rangeQuery,fuzzyQuery,boolQuery等

然后用一个BoolQueryBudiler(ES原生)把第2步生成的全部Query串起来。

辅助设置一下参数,例如SourceFilter,Pageable(转换成ES原生的起始点选择),sort,minscore之类的。

2.1.5.4 Scan实现

可以用来完成超大数据量的Scan && Scroll 暂时用不到,但数据规模到一定规模时,应该有用。(观察下Jest里的实现)

3. 结论

结合Spring和注解,在POJO上利用Document和Filed注解,然后结合Repository风格的Dao,可以非常有

效的创建索引。 (save方法,推荐这么使用)

一些简单的、常规的查询,推荐使用CriteriaQuery,配合EST

复杂的、自定义的、得分排序等等高阶查询,需要是用SearchQuery集成ES原生的各种

TermQuery、RangeQuery等。(所以还是要认真学下ES的原生JAVA API)

© 著作权归作者所有

共有 人打赏支持
忆然灬
粉丝 2
博文 52
码字总数 55186
作品 0
东城
架构师
私信 提问
centos 7( linux )下安装elasticsearch教程

目录 概述 环境准备 elaticsearch简介 安装elasticsearch 彩蛋 概述 很久没有写博客了,最近在做全文检索的项目,发现elasticsearch踩了不少坑,百度点进去又是坑,在此记录一下自己的踩坑历程。...

java_龙
10/15
0
0
基于弹性堆栈(ELK堆栈)的日志分析、存储及展示

ELK简介 “ELK”是三个开源项目的首字母缩写:Elasticsearch,Logstash和Kibana。Elasticsearch是一个搜索和分析引擎。Logstash是一个服务器端数据处理管道,它同时从多个源中提取数据,对其...

cchenyz
08/22
0
0
当Elasticsearch遇见Kafka

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由michelmu发表于云+社区专栏 Elasticsearch作为当前主流的全文检索引擎,除了强大的全文检索能力和高扩展性之外,对多种数据...

腾讯云加社区
11/12
0
0
Elasticsearch最佳实践之使用场景

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zwgdft/article/details/82917861 序   最开始使用Elasticsearch是两年多前,在一家创业公司负责数据系统的...

Mr-Bruce
10/08
0
0
Elastic 南京 Meetup

1. 主办方 Elastic中文社区 趋势科技 2. 时间地点 活动时间:2018年6月30日 13:00 - 18:00 活动地点:雨花区软件大道48号苏豪国际广场B座 趋势科技中国研发中心(靠花神庙地铁站) 3. 报名地...

Medcl
06/04
69
0

没有更多内容

加载失败,请刷新页面

加载更多

《资治通鉴》读书笔记及阅读感悟2200字

《资治通鉴》读书笔记及阅读感悟2200字: 1.用夏桀,商纣暴虐昏君和商汤,周武王仁德明君做比较,因为人民归心,上天赐名要不然就永远要恪守臣节至死不渝。 又用商朝的微子取代纣王,商朝可以...

原创小博客
15分钟前
1
0
十万个为什么之为什么大家都说dubbo

Dubbo是什么? 使用背景 dubbo为什么这么流行, 为什么大家都这么喜欢用dubbo; 通过了解分布式开发了解到, 为适应访问量暴增,业务拆分后, 子应用部署在多台服务器上,而多台服务器通过可以通过d...

尾生
53分钟前
2
0
Docker搭建代码质量检测平台-SonarQube(中文版)

Sonar是一个用于代码质量管理的开源平台,用于管理源代码的质量,可以从七个维度检测代码质量。通过插件形式,可以支持包括java,C#,C/C++,PL/SQL,Cobol,JavaScrip,Groovy等等二十几种编程语言...

Jacktanger
今天
2
0
Windows / Linux / MacOS 设置代理上网的方法汇总

本文汇总了 Windows / Linux / MacOS 设置代理上网的各种方法,总结如下: 1、设置系统代理(Windows、Linux、MacOS) 2、设置代理插件(Chrome、Chromium、Firefox、Opera、QQ等浏览器) 3、...

sunboy2050
昨天
4
0
自定义 Maven 的 repositories

有时,应用中需要一些比较新的依赖,而这些依赖并没有正式发布,还是处于milestone或者是snapshot阶段,并不能从中央仓库或者镜像站上下载到。此时,就需要 自定义Maven的<repositories>。 ...

waylau
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部