文档章节

使用ElasticSearch快速搭建数据搜索服务

忆然灬
 忆然灬
发布于 2016/12/08 10:01
字数 1736
阅读 195
收藏 6

1. ElasticSearch?

ElasticSearch 是最近几年Java界少有的当红炸子鸡,在Github上有19663个STAR。ES这两年在各个领域都

有极大的发展,目前看来基本上是无所不能,我想是因为它的工作是数据的存储和索引,而数据是一切程序

的本质,是基石的基石。

最简单的一个用法是搭建数据搜索服务,由于DNA是Lucence系的,很容易做Scoring和Sorting,提供

Reseful的数据接口。配合中文分词Analyzer,可以做中文的全文检索。天生是分布式的。

2. Spring Data ElasticSearch?

Spring Data ElasticSearch是Spring Data 针对ElasticSearch封装的一套框架,目前还是孵化性质,版本之

间变动特别大,其中一部分原因是ElasticSearch也在飞速变化中,直接从V2.4跳跃到V5.0。

虽然S D ES经常整个package被@Deprecate掉,但我个人觉得还是非常适合用来阅读源代码深入学习的:

初始版本聚焦核心功能,内容分支少,容易掌握 变化过程中,也了解专业程序员的设计思路及其取舍

3. 搜索服务搭建

ElasticSearch做数据存储Store、索引Index和检索Query

Spring-Data-ElasticSearch来完成”灌数据“和”取数据“的工作。

4. ES安装方法

ES的安装方法非常简单,下载最新的Bin包,解压即可!!

4.1 安装中文分词插件

插件地址 https://github.com/medcl/elasticsearch-analysis-ik/

下载ES版本对应的IK插件版本,解压到ES的plugins目录下即可。

修改config目录下配置文件elasticsearch.yml如下所示:

index.analysis.analyzer.ik.type : "ik"

index.analysis.analyzer.default.type : "ik"

4.2 安装Head插件

Head是一款非常好用的ElasticSearch数据图形化管理插件,类似于Mysql的NaviCat,安装方式非常简单:

sudo elasticsearch/bin/plugin install mobz/elasticsearch-head

插件安装方法1:

4.2.1.elasticsearch/bin/plugin -install mobz/elasticsearch-head

4.2.2.运行es

4.2.3.打开http://localhost:9200/_plugin/head/

插件安装方法2:

4.2.2.1.https://github.com/mobz/elasticsearch-head 下载zip

4.2.2.2.将zip文件移动至elasticsearch-1.0.0\plugins\并unzip解压

4.2.2.3.用mv命令修改名字elasticsearch-head为head,如有必要需对head赋777权限

4.2.2.4.运行es

4.2.2.5.打开http://localhost:9200/_plugin/head/

5. Spring Data ElasticSearch代码示例

通过注解@Document@Filed,可

以在ES中配置一个可索引的的对象。

在@Document注解中,indexName可以理解为传统关系数据库的DB Name, type可以理解为

Table Name.

@Document(indexName = "db_name", type = "table_name")

public class Item {

private String id;

@Field(analyzer = "ik", searchAnalyzer = "ik", type = FieldType.String)

private String name;

}

Spring Data Repository风格的Dao实现:

@Repository

public interface ItemDao extends ElasticsearchRepository<Item, String> {}

实现索引和查询的简单代码示例:

@Service

public class ItemService {

@Autowired private ItemDao itemDao;

@Autowired private ElasticsearchTemplate et;

public void indexItem() {

Item item = new Item("id", "name");

// 配合注解,一句话实现索引 itemDao.save(item); }

public Page<Item> search(String word, int page, int pageSize) {

// ES原生的模糊查询API SDE中

CriteriaQuery.Contains的实现 QueryBuilder queryBuilder =

queryStringQuery(word).

field("name").

analyzeWildcard(true).

boost(2f); SearchQuery searchQuery = new

NativeSearchQueryBuilder(). withQuery(queryBuilder). withPageable(new PageRequest(page,

pageSize)). withMinScore(0.01f). build();

return et.queryForPage(searchQuery, Item.class); } }

附录: Spring Data ElasticSearch 源码阅读笔记

基本上看到这里,使用上已经足够,下面这些是我当时读源码时的一些笔记,比较散乱,感兴趣的可以看看。

1. 源码目录结构

五个主要package,分别是

**annotations:**各种注解,主要用到的是@Document 和 @Field

**client:**NodeClient 和 TransportClinet,用后者,前者是个玩具

**config:**配置包,随便看看

**core:**核心包,Query和Index主要功能包,重点看

repository: spring data的repository接口包,主要是和ES交互,随便看看

2. Core 包

2.1 Query 接口

Query 有两个直接子接口: SeachQuery 和抽象类 AbstractQuery,且两者有个共同的实现类

NativeSearchQuery,这个类需要重点关注下。

SearchQuery里的Facet 被干掉了,暴露了Query和Filter的builder。同时暴露了HightlightFileds,

ScriptFields,IndexBoost之类的细节。

抽象类AbstractQuery implements Query 接口. (没有一个方法是Abstract的,理论上已经完全实现

Query接口)

StringQuery,AbstractQuery的一个子类,增加了一个属性,Source。打酱油的,可以忽略。

AbstractQuery的子类:CriteriaQuery,非常重要的一个类。封装一个Fluent API Style的Criteria,能做

where, and, or, is, contains, startsWith, endsWith, not, contains, expression …… 等各种常用操作。

2.1.2 Criteria类

标准Spring Data风格的Criteria查询基础类

构造函数管理的对象是Field(只有一个属性name),还会有个Arraylist的CriteriaChain,存储一系列的

CriteriaEntry用来生成查询语句

OrCriteria用来处理“或”条件,继承自Criteria,区别是 override 了 ConjunctionOperator

Criteria的contains,startsWith,endsWith等方法, 参数不接受空格

not方法,是将negating参数置为true

Criteria还支持Location GeoBox Bounding Box 查询(厉害,经纬度的查询)

CriteriaEntry的实现原理是转换成原生的ElasticSearch Query Java API,转换介质是枚举变量

public enum OperationKey {

EQUALS, CONTAINS, STARTS_WITH, ENDS_WITH, EXPRESSION, BETWEEN, FUZZY, IN, NOT_IN, WITHIN,

BBOX, NEAR, LESS, LESS_EQUAL, GREATER, GREATER_EQUAL;

}

boost 是干啥的? postive hit with given factor

filter是干啥的? 用在Geo Location(地理信息)的查询中

2.1.3 CriteriaQuery类

封装了Criteria,没啥好说的。

2.1.4 NativeSearchQuery

它封装了ES里的QueryBuilder和SortBuilder,因此可以将Spring Data风格的Query转换过ElasticSearch

的原生Query API,想要实现高度定制化的查询,全靠这个类。Spring Data ES提供有配套Builder.

2.1.5 ElasticSearchTemplate

继承自ElasticsearchOperations接口,是标准的Spring Data风格封装。

2.1.5.1 ElasticsearchOperations

主要包含以下几个方面的功能

索引的 创建

Mapping的创建(对indexName(database)和 Type (table)的Mapping,目前不知道是干啥的)

获取IndexName的Setting (数据格式是一个map)

常规的QueryForObject, QueryForPage等操作

count, multiGet

update, index, delete

scan, scroll

几个特殊的Query:MoreLikeThisQuery,AliasQuery

2.1.5.2 EST的实现

封装了一个ES的Client, 能完成index,mapping,setting相关的request请求

2.1.5.3 queryForPage实现

创建Query和Filter两个QueryBuilder(ES的),其中Query用于普通字段的查询,Filter用于Geo Location

数据的查询。

Query-QuerBuidler里是根据CriteriaEntry和前面列举的枚举变量OperationKey转换成ES原生的

queryStringQuery,rangeQuery,fuzzyQuery,boolQuery等

然后用一个BoolQueryBudiler(ES原生)把第2步生成的全部Query串起来。

辅助设置一下参数,例如SourceFilter,Pageable(转换成ES原生的起始点选择),sort,minscore之类的。

2.1.5.4 Scan实现

可以用来完成超大数据量的Scan && Scroll 暂时用不到,但数据规模到一定规模时,应该有用。(观察下Jest里的实现)

3. 结论

结合Spring和注解,在POJO上利用Document和Filed注解,然后结合Repository风格的Dao,可以非常有

效的创建索引。 (save方法,推荐这么使用)

一些简单的、常规的查询,推荐使用CriteriaQuery,配合EST

复杂的、自定义的、得分排序等等高阶查询,需要是用SearchQuery集成ES原生的各种

TermQuery、RangeQuery等。(所以还是要认真学下ES的原生JAVA API)

© 著作权归作者所有

共有 人打赏支持
忆然灬
粉丝 2
博文 52
码字总数 55186
作品 0
东城
架构师
基于弹性堆栈(ELK堆栈)的日志分析、存储及展示

ELK简介 “ELK”是三个开源项目的首字母缩写:Elasticsearch,Logstash和Kibana。Elasticsearch是一个搜索和分析引擎。Logstash是一个服务器端数据处理管道,它同时从多个源中提取数据,对其...

cchenyz
08/22
0
0
I-team 博客全文检索 Elasticsearch 实战

一直觉得博客缺点东西,最近还是发现了,当博客慢慢多起来的时候想要找一篇之前写的博客很是麻烦,于是作为后端开发的楼主觉得自己动手丰衣足食,也就有了这次博客全文检索功能Elasticsearch...

haifeiWu
07/23
0
0
渣渣菜鸡为什么要看 ElasticSearch 源码?

前提 人工智能、大数据快速发展的今天,对于 TB 甚至 PB 级大数据的快速检索已然成为刚需,大型企业早已淹没在系统生成的浩瀚数据流当中。大数据技术业已集中在如何存储和处理这些海量的数据...

Java小铺
08/10
0
0
使用ELK构建微服务的日志平台

1 概述 在微服务架构中,会部署众多的应用,其中有基础应用,比如:网关,服务发现等。同时还有大量的业务应用。所以,如何有效的收集它们的日志,并且方便查询,同时提供友好的可视化展示,...

Java大蜗牛
08/18
0
0
小白都会超详细--ELK日志管理平台搭建教程

目录 一、介绍 二、安装JDK 三、安装Elasticsearch 四、安装Logstash 五、安装Kibana 六、Kibana简单使用 系统环境:CentOS Linux release 7.4.1708 (Core) 当前问题状况 开发人员不能登录线...

渣渣辉
07/15
0
0

没有更多内容

加载失败,请刷新页面

加载更多

20180925 df与du命令、fdisk磁盘分区

df 命令 disk filesystem的缩写,查看已挂载磁盘的总容量、使用容量、剩余容量信息。 [root@centos01 ~]# dfFilesystem 1K-blocks Used Available Use% Mounted on/dev/sda3 27...

野雪球
29分钟前
0
0
Shell编程(expect同步文件、指定host和同步文件、构建文件分发系统、批量执行命令)

expect脚本同步文件 需求:自动同步文件 实验准备: A机器:192.168.248.130 B机器:192.168.248.129 实现: 1.A机器编写4.expect脚本文件,内容如下所示: #!/usr/bin/expectset passwd "...

蛋黄_Yolks
55分钟前
2
0
ppwjs之bootstrap颜色:背景颜色

<!DOCTYPT html><html><head><meta http-equiv="content-type" content="text/html; charset=utf-8" /><title>ppwjs欢迎您</title><link rel="icon" href="/favicon.ico" ......

ppwjs
56分钟前
1
0
Ubuntu与 Fedora之对比

大家好。今天我将重点介绍两个流行的Linux发行版之间的一些特性和差异; Ubuntu 18.04和Fedora 28。它们都有自己的包管理; Ubuntu使用DEB,而Fedora使用RPM,但它们都具有相同的桌面环境(GNO...

linuxprobe16
今天
2
0
线性代数入门

线性代数的概念对于理解机器学习背后的原理非常重要,尤其是在深度学习领域中。它可以帮助我们更好地理解算法内部到底是怎么运行的,借此,我们就能够更好的做出决策。所以,如果你真的希望了...

牛奋Debug
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部