文档章节

【ElasticSearch】查询基础篇

鴿神丶
 鴿神丶
发布于 2016/06/22 19:43
字数 1380
阅读 130
收藏 8

elasticsearch的查询有两部分组成:query and filter。

两者的主要区别在于:filter是不计算相关性的,同时可以cache。因此,filter速度要快于query。

先记录一下es提供的各种query。

以下内容只为当做读书笔记,更多详细细节请参见http://www.elasticsearch.org/guide/

第一部分:query

在需要full-text-search和需要计算相关性的情况下,用query。而filter满足不了需求。

(1)match query and multi-match query //and match-all query and minimum should match query

match queries没有“query parsing”的过程,field不支持通配符,前缀等高级特性,只是参照指定的文本进行analysis,执行query,因此失败几率极小,适合search-box。

analyzed类型的query,故可指定analyzer

operator可指定or/and

zero-terms-query可指定none/all

cutoff-frequency可指定absolute值或者relative值

match-phase query可指定slot值,参见后续的search-in-depth

match-phase-prefix query可指定max_expansion

(2)multi-match query

分别执行为单个field的match的查询。因此最终_score值的计算规则各异。

fields可指定执行需要查询的字段,field可以支持通配符等高级特性(match query是不支持的),field可支持(^)指定各个field的boost权重

types可指定以下值,区分不同的查询行为:

best _fields:_score决定于得分最高的match-clause。field-centric

most_fields:所有match-clause都会考虑在内。field-centric

cross-fields:把fileds当做一个big-fields。term-centric

phase and phase-prefix:每个field执行相应的query,combine the score

以上都有具体的应用场景和详细的计算规则,具体请参见后续的search-in-depth。

(3)bool query

一种复合查询,把其余类型的查询包裹进来。支持以下三种逻辑关系。

must: AND   

must_not:NOT

should:OR

(4)boosting query

一种复合查询,分为positive子查询和negitive子查询,两者的查询结构都会返回。

positive子查询的score保持不变,negetive子查询的值将会根据negative_boost的值做相应程度的降低。

(5)common term query

一种略高级的查询,充分考虑了stop-word的低优先级,提高了查询精确性。

将terms分为了两种:more-importent(low-frequency) and less important(high-frequency)。less-important比如stop-words,eg:the and。

分组标准由cutoff_frequence决定。两组query构成bool query。must应用于low_frequence,should应用high_frequence。

每一组内部都可以指定operator和mini_should_match。

如果group后只有一组,则默认退化为单组的子查询。

query执行中首先match到more-import这一组的doc,然后在这个基础上去match less-import,并且计算只计算match到的score。保证了效率,也充分考虑了relevance。

(6)constant score query

不计算相关性的query。沿用index过程中指定的score,。

(7)dismax query

对子查询的结果做union,score沿用子查询score的最大值。这种查询广泛应用于muti-field的查询。具体可以参见后续更新search-in-depth

(8)filtered query

combine another query with any fillter。

如果不指定query,默认为match_all。当应用多个fitler的时候,可以指定strategy属性,expert-level。

(9)fuzzy query and fuzzy like this query and fuzzy like this field query

fuzzy query :主要根据fuzziniess和prefix_length进行匹配distance查询。根据type不同distance计算不一样。

numeric类型的distance类似于区间,string类型则依据Levenshtein distance,即从一个stringA变换到另一个stringB,需要变换的最小字母数。

如果指定为AUTO,则根据term的length有以下规则:

0-1:完全一致

1-4:1

>4:2

推荐指定prefix_length,表明这个范围的字符需要精准匹配,如果不指定prefix_lengh和fuzziniess参数,该查询负担较重。

(10)function score query

定义function去改变doc的score

(11)geoshape query

基于地理位置的查询

(12)has child query and has parent query and top children query

默认跟filter一样,query是包裹了一个constant_score的filter。也有相关score的支持。

has_child:匹配child字段,返回匹配到的对应的parent的结果。

has_parent:匹配parent字段,返回匹配到对应child的结果。

top_children query:has_child query的一种,也是查询child字段,不过增加可控制参数,通过factor,incremental_factor以及query的size来确定子查询的次数,直到满足

size为止,因此,可能需要多轮迭代子查询,所以total_hits有可能是不准确的。

(13)ids query

查询指定id。

(14)indices query

在多个索引之中查询,允许提供一个indics参数指定将要查询的索引及相关的查询,同时指定no_match_query在indecs之外的索引中查询,返回结果。

(15)more like this and more like this field query

根据指定的like_text,经过analysis生成若干个基于term的should查询合并成一个bool查询。

min_term_freq/max_term_freq/max_term_num:限制interesting term。

percentage_terms_to_match:限制should查询应该满足的term比例。

more like this query 可指定多个field字段,more like this field query 则在一个field上查询。

(16)nested query

内嵌类型的查询,指定完整的path。

(17)prefix query

前缀查询。

(18)query string query and simple query string query

基于lucence查询语法的查询,指定字段/term/boost等。

simple query string query 跟 query string类似,这是会自动放弃invalid的部分,不会抛出异常。

默认的field是_all。

(19)range query and regrex query and wildcard query

range query:区间查询,日期/string/num。

regrex query:正则查询。

wildcard query:通配符查询。

(20)span-*query

(21)term query and terms query

基于term的查询。

(22)template query

注册一个查询模板,指定模板查询。

本文转载自:http://www.cnblogs.com/zhangchenliang/p/4195406.html

鴿神丶
粉丝 3
博文 43
码字总数 6887
作品 0
渝北
私信 提问
Elasticsearch入门篇——基础知识

还记得大二的时候,初入Java大门,就大言不惭的给老师说,我要开发一个搜索引擎,结果是各种学习,各种找资料,终于在期末的时候,做出了一个简单新闻搜索页面,搜索模块是使用了Lucene。 今...

JAVA_冯文议
03/11
0
0
ES(elasticsearch)搜索引擎

ES(elasticsearch)搜索引擎 0、授人以渔,少走半年弯路! 死磕 Elasticsearch 方法论:普通程序员高效精进的 10 大狠招! 一、Elasitcsearch基础篇 1.1 Elasitcsearch基础认知 1、Elasticse...

Ocean_K
2018/09/11
0
0
快速掌握分布式搜索引擎ElasticSearch(一)

前言 由于最近在项目中接触使用到了ElasticSearch,从本篇博客开始将给大家分享这款风靡全球的产品。将涉及到ElasticSearch的安装、基础概念、基本用法、高级查询、中文分词器、与SpringBoo...

张丰哲
2018/11/10
0
0
如何用 Node.js 和 Elasticsearch 构建搜索引擎

Elasticsearch 是一款开源的搜索引擎,由于其高性能和分布式系统架构而备受关注。本文将讨论其关键特性,并手把手教你如何用它创建 Node.js 搜索引擎。 Elasticsearch 概述 Elasticsearch 底...

oschina
2016/09/29
10.2K
6
Elasticsearch 7 发布,Kibana 暗黑模式、集群协调新时代

Elastic Stack 7.0.0 发布了,Elasticsearch 作为 Elastic Stack 的核心,它是一个分布式、面向文档的 RESTful 风格搜索和数据分析引擎,它支持结构化和非结构化查询,并且不需要提前定义模式...

h4cd
04/12
0
26

没有更多内容

加载失败,请刷新页面

加载更多

数据科学热潮下的冷思考:什么才是最需要的技能?

全文共3087字,预计学习时长6分钟 图片来源:pexels.com/@freestocks 数据科学已经进入了稳定生产的成熟期,数据科学家所需的技能也在与时俱进。不仅是追求更高效的机器学习模型,在当下,推...

读芯术
25分钟前
2
0
48.Nginx访问日志 日志切割 静态文件不记录

12.10 Nginx访问日志 12.11 Nginx日志切割 12.12 静态文件不记录日志和过期时间 12.10 Nginx访问日志: ~1.日志格式 vim /usr/local/nginx/conf/nginx.conf //搜索log_format log_format com...

oschina130111
29分钟前
3
0
好程序员分享Css详解bem书写规范

  好程序员分享Css详解bem书写规范,bem是基于组件的web开发方法。其思想是将用户界面分隔为独立的块,从而使开发复杂的UI界面变得更简单和快,且不需要粘贴复制便可复用现有代码。BEM由B...

好程序员IT
34分钟前
3
0
基于cm+cdh搭建大数据集群

第一部分:搭建基本环境 1、网络配置 vim /etc/sysconfig/network-scripts/ifcfg-ens32 service network restart vim /etc/hosts 192.168.15.121 node1 192.168.15.122 node2 192.168.15.123......

一个点一个点
42分钟前
0
0
[学]ngin反向代理搭建与配置

Nginx安装地址:https://www.cnblogs.com/wyd168/p/6636529.html (linux) 必须安装的4个包: nginx-1.1.10.tar.gz openssl-1.0.1t.tar.gz pcre-8.39.tar.gz zlib-1.2.11.tar.gz ng配置主要......

覃光林
48分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部