文档章节

如何跳过es分页这个坑?

strict_nerd
 strict_nerd
发布于 03/18 16:22
字数 1671
阅读 4104
收藏 118

1、分页查询

1.1、 正常分页查询代码如下

假设现在你要查询第100页的10条数据,但是对于es来说,from=1000000,size=100,这时 es需要从各个分片上查询出来10000100条数据,然后汇总计算后从其中取出100条。如果有5个分片则需要查询出来5*10000100条数据,如果现在有一个100个查询请求呢,50亿左右的数据,一条数据2KB,就需要9000G左右的内存,什么样的机器能够支持这么庞大的查询,所以如果你在使用es的分页查询过程中,刚开始翻页可能速度比较快,可能到第一百页查询就需要4-5s,翻到1000页以后,直接报错了。

NativeSearchQueryBuilder query = new NativeSearchQueryBuilder();
        if(!StringUtils.isEmpty(ulqBean.getStartTime()) && !StringUtils.isEmpty(ulqBean.getEndTime())) {
            query.withQuery(QueryBuilders.rangeQuery("logTime").from(ulqBean.getStartTime()).to(ulqBean.getEndTime()));
        }

        if(!StringUtils.isEmpty(ulqBean.getSearch())) {
            BoolQueryBuilder shouldQuery = QueryBuilders.boolQuery()
                    .should(QueryBuilders.wildcardQuery("content", "*" + ulqBean.getSearch() + "*"))
                    .should(QueryBuilders.wildcardQuery("code", "*" + ulqBean.getSearch() + "*"))
                    .should(QueryBuilders.wildcardQuery("name", "*" + ulqBean.getSearch() + "*"));
            query.withQuery(shouldQuery);
        }

        query.withSort(new FieldSortBuilder("logTime").order(SortOrder.DESC));
        if(ulqBean.getPageNo() != null && ulqBean.getPageSize() != null) {
            //es结果从第0页开始算
            query.withPageable(new PageRequest(ulqBean.getPageNo() - 1, ulqBean.getPageSize()));
        }
        NativeSearchQuery build = query.build();
        org.springframework.data.domain.Page<ConductAudits> conductAuditsPage = template.queryForPage(build, ConductAudits.class);
        ulqBean.getPagination().setTotal((int) conductAuditsPage.getTotalElements());
        ulqBean.getPagination().setList(conductAuditsPage.getContent());

1.2、 错误信息

[root@localhost elasticsearch-2.4.6]# curl -XGET 'http://11.12.84.126:9200/_audit_0102/_log_0102/_search?size=2&from=10000&pretty=true'
{
  "error" : {
    "root_cause" : [ {
      "type" : "query_phase_execution_exception",
      "reason" : "Result window is too large, from + size must be less than or equal to: [10000] but was [10002]. See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level parameter."
    } ],
    "type" : "search_phase_execution_exception",
    "reason" : "all shards failed",
    "phase" : "query",
    "grouped" : true,
    "failed_shards" : [ {
      "shard" : 0,
      "index" : "_audit_0102",
      "node" : "f_CQitYESZedx8ZbyZ6bHA",
      "reason" : {
        "type" : "query_phase_execution_exception",
        "reason" : "Result window is too large, from + size must be less than or equal to: [10000] but was [10002]. See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level parameter."
      }
    } ]
  },
  "status" : 500
}

1.3、 修改问题

如果你的数据大小在你的控制范围内,想要进一步深度分页,你可以通过如下命令修改窗口大小:

curl -XPUT "http://11.12.84.126:9200/_audit_0102/_settings" -d '{
        "index": {
            "max_result_window": 100000
        }
    }'

2、深度查询问题

但是这只是允许你更进一步深度分页,却没有从根本上解决深度分页的问题,而且随着页码的增加,系统资源占用成指数级上升,很容易就会出现OOM。

这时如果你的产品经理要求你按照常规的做法去分页,你可以很明确的告诉他,你的系统不支持这么深度的分页,翻的越深,性能也就越差。

不过这种深度分页场景在现实中确实存在,有些场景下,我们可以说服产品经理很少有人会翻看很久之前的历史数据,但是有些场景下可能一天都产生几百万。这个时候我们可以根据具体场景具体分析。

3、 利用scroll遍历数据

scroll查询原理是在第一次查询的时候一次性生成一个快照,根据上一次的查询的id来进行下一次的查询,这个就类似于关系型数据库的游标,然后每次滑动都是根据产生的游标id进行下一次查询,这种性能比上面说的分页性能要高出很多,基本都是毫秒级的。 注意:scroll不支持跳页查询。 使用场景:对实时性要求不高的查询,例如微博或者头条滚动查询。 具体java代码实现

3.1、设置查询条件

 BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery();
       QueryBuilder builder = QueryBuilders.queryStringQuery("123456").field("code");
       boolQueryBuilder.must(QueryBuilders.termQuery("logType", "10"))
               .must(builder);

3.2、 第一次查询

  1. 第一次查询,跟平时的search查询一样需要设置index和type以及查询条件。
  2. 如果把查询类型设置成SCAN,那么不能获取结果并且不支持排序,只能获得scrollId,如果使用默认设置或者不设置,那么第一次在获取id的同时也可以获取到查询结果。
  3. 这个size大小的意思不是总分页的大小,实际数量应该是:所以实际返回的数量是:分片的数量*size
  4. 滚动时间设置是指在这个查询搜索结果的缓存时间,时间不能太久,毕竟内存空间是有限的。
 SearchResponse response1 = client.prepareSearch("_audit_0221").setTypes("_log_0221")
                    .setQuery(boolQueryBuilder)
                    .setSearchType(.setSearchType(SearchType.DEFAULT))
                    .setSize(10).setScroll(TimeValue.timeValueMinutes(5))
                    .addSort("logTime", SortOrder.DESC)
                    .execute().actionGet();//第一次查询
for (SearchHit searchHit : response1.getHits().hits()) {
            biz handle....;
}

3.3、 第二次查询,循环获取查询结果

while (response1.getHits().hits().length>0) {
            for (SearchHit searchHit : response1.getHits().hits()) {
                System.out.println(searchHit.getSource().toString());
            }
            response1 = client.prepareSearchScroll(response1.getScrollId()).setScroll(TimeValue.timeValueMinutes(5))
                    .execute().actionGet();
        }

如果是一次性的搜索,可以清除查询结果,毕竟可以减少对内存的消耗。

ClearScrollRequest request = new ClearScrollRequest();
        request.addScrollId(scrollId);
        client.clearScroll(request);

4、 利用scroll-scan遍历数据

使用场景:我有500w用户,需要遍历所有用户发送数据,并且对顺序没有要求,这个时候我们可以使用scroll-scan。

具体使用方式:

4.1、 查询

 SearchResponse response = client.prepareSearch("_audit_0221").setTypes("_log_0221")
                    .setQuery(boolQueryBuilder)
                    .setSearchType(SearchType.SCAN)
                    .setSize(5).setScroll(TimeValue.timeValueMinutes(5))
                    .addSort("logTime", SortOrder.DESC)
                    .execute().actionGet();

4.2、 获取结果

SearchResponse response1 = client.prepareSearchScroll(scrollId).setScroll(TimeValue.timeValueMinutes(5))
                .execute().actionGet();

 while (response1.getHits().hits().length>0) {
            for (SearchHit searchHit : response1.getHits().hits()) {
                System.out.println(searchHit.getSource().toString());
            }
            response1 = client.prepareSearchScroll(response1.getScrollId()).setScroll(TimeValue.timeValueMinutes(5))
                    .execute().actionGet();
}

5、 也可以使用如下spring提供的ElasticsearchTemplate分页的查询方式

 QueryBuilder builder = QueryBuilders.boolQuery().filter(QueryBuilders.termQuery("code", "123456"));
        SearchQuery searchQuery = new NativeSearchQueryBuilder().withIndices("_audit_0221")
                .withTypes("_log_0221").withQuery(builder).withPageable(new PageRequest(0, 2)).build();
        String srollId = template.scan(searchQuery, 100000, false);

        while (true) {
            Page<ConductAudits> scroll = template.scroll(srollId, 1000, ConductAudits.class);
            if(scroll.getContent().size()==0) {
                break;
            }
            List<ConductAudits> content = scroll.getContent();
            for (ConductAudits c: content
                 ) {
                System.out.println(JSON.toJSONString(c));
            }
           // System.out.println(JSON.toJSONString(scroll.getContent()+"\r\n"));
            for (ConductAudits conductAudits : scroll.getContent()) {
                System.out.println(JSON.toJSONString(conductAudits+"\r\n"));
            }
        }

6、 scroll和scroll-scan区别

  1. scroll支持排序,scroll-scan不支持排序,是按照索引顺序返回,可以提高查询效率。
  2. scroll-scan第一次查询只支持返回id,没有结果。

7、 总结:

  1. es的分页查询不支持深度分页,如果偏要使用要结合具体业务场景进行使用。不能当成关系型数据库中的分页进行使用。
  2. 要想提高产品体验和查询效率不能过于依赖技术,要结合需求进行分析以提高体验,因为很多搜索类产品都不支持深度分页。
  3. 如果在不涉及排序的情况下尽量使用scroll-scan,它是按照索引顺序返回,提高效率。

PS:elasticSearch各个版本可能都稍有区别,但是原理相同。本文的很多代码都是基于es 2.4.6

© 著作权归作者所有

strict_nerd
粉丝 10
博文 51
码字总数 25653
作品 0
郑州
程序员
私信 提问
加载中

评论(10)

秦刘洋
秦刘洋
依然爬坑中,哎第一次各种非空查询,组合查询 。。😊
你大舅子
泉哥我来给你点赞了
strict_nerd
strict_nerd

引用来自“扣脚战神”的评论

为啥用这么老的版本
没办法的啦,公司的服务一直都是基于jdk1.7的!
扣脚战神
扣脚战神
为啥用这么老的版本
strict_nerd
strict_nerd

引用来自“路人丁语”的评论

怎么少了searchAfter呢?
search_after文档上说能够解决scroll的非实时取值问题,而且性能非常好,不过目前还没有做测试!
路人丁语
路人丁语
怎么少了searchAfter呢?
行走在赤道
行走在赤道
so 跳过这个坑还是从产品的设计角度解决?

毕竟 Google Search 也不支持深度分页嘛。😆
strict_nerd
strict_nerd

引用来自“乌龟壳”的评论

scroll 还要程序主动去释放,如果程序错了分分钟撑爆 es 的结构啊。
根据具体业务场景具体分析使用。
乌龟壳
乌龟壳
scroll 还要程序主动去释放,如果程序错了分分钟撑爆 es 的结构啊。
紫电清霜
紫电清霜
666666666666666 mysql也是类似
es 在数据量很大的情况下(数十亿级别)如何提高查询效率啊?

面试题 es 在数据量很大的情况下(数十亿级别)如何提高查询效率啊? 面试官心理分析 这个问题是肯定要问的,说白了,就是看你有没有实际干过 es,因为啥?其实 es 性能并没有你想象中那么好...

架构师springboot
03/25
0
0
ElasticSearch在数十亿级别数据下,如何提高查询效率?

面试题 es 在数据量很大的情况下(数十亿级别)如何提高查询效率啊? 面试官心理分析 这个问题是肯定要问的,说白了,就是看你有没有实际干过 es,因为啥?其实 es 性能并没有你想象中那么好...

李红欧巴
04/19
0
0
日均5亿查询量的京东订单中心,为什么舍MySQL用ES?

作者介绍 张sir,京东到家研发工程师,主要负责订单中心、商家中心、计费等系统。 京东到家订单中心系统业务中,无论是外部商家的订单生产,或是内部上下游系统的依赖,订单查询的调用量都非...

张sir
2018/12/27
0
0
初窥 Elasticsearch-PHP [1.0]

初始化 Elasticsearch-PHP 下载地址:http://www.thinkphp.cn/code/download/id/1290.html 教程以ThinkPHP为例 下载Elasticsearch-PHP文件放在ThinkPHPLibraryVendor 如果不给hosts参数也是可......

dragon_tech
2018/12/20
0
0
JavaScript 新手的踩坑日记

引语 在1995年5月,Eich 大神在10天内就写出了第一个脚本语言的版本,JavaScript 的第一个代号是 Mocha,Marc Andreesen 起的这个名字。由于商标问题以及很多产品已经使用了 Live 的前缀,网...

一缕殇流化隐半边冰霜
2017/05/19
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周二乱弹 —— 吾不好梦中插人

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @鱼豆腐233 :#今日歌曲分享# 分享My Chemical Romance的单曲《I Don't Love You》: 《I Don't Love You》- My Chemical Romance 手机党少年们...

小小编辑
54分钟前
31
5
ss5 vpn 安装(linux版本)

1. 创建一个文件夹 /ss5 你也可以自定义,不过后续的地方需要注意自己的地址 2. 下载ss5文件(如果你的服务器没有安装wget请使用 yum -y install wget 命令安装 如果连yum都没安装自己查去)(下...

太黑_thj
今天
2
0
八、RabbitMQ的集群原理

集群架构 写在前面 RabbitMQ集群是按照低延迟环境设计的,千万不要跨越WAN或者互联网来搭建RabbitMQ集群。如果一定要在高延迟环境下使用RabbitMQ集群,可以参考使用Shovel和Federation工具。...

XuePeng77
今天
5
0
mac系统下,brew 安装mysql,用终端可以连接,navicat却连接不上?

问题: 1.报错? 2059 - Authentication plugin 'caching_sha2_password' cannot be loaded: dlopen(../Frameworks/caching_sha2_password.so, 2): image not found 2.自己通过设置,已经把密......

写bug的攻城狮
昨天
3
0
老生常谈,HashMap的死循环

问题 最近的几次面试中,我都问了是否了解HashMap在并发使用时可能发生死循环,导致cpu100%,结果让我很意外,都表示不知道有这样的问题,让我意外的是面试者的工作年限都不短。 由于HashMap...

群星纪元
昨天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部