文档章节

浅谈ElasticSearch的嵌套存储模型

九劫散仙
 九劫散仙
发布于 2017/02/28 11:45
字数 1028
阅读 53
收藏 0

image 最近一个半月都在搞SparkStreaming+Hbase+Redis+ES相关的实时流项目开发,其中重度使用了ElasticSearch作为一个核心业务的数据存储,所以这段时间更新文章较少,现在开发基本完事,接下来的会写几篇有关ElastiSearch的使用心得。

大多数时候我们使用es都是用来存储业务比较简单的数据,比如日志log类居多,就算有一些有主外键关联的数据,我们也会提前join好,然后放入es中存储。

的确,扁平化后的数据存入索引,无论是写入,更新,查询都比较简单。但是有一些业务却没法扁平化后存储。比如我们这次的业务数据。由于业务本身比较复杂,先看下数据实体模型。

image

总共是三层模型,可以看到User(用户)包含多个Quest(题目),每个题目又包含多个Kp(知识点),其中User,Quest,Kp都是一个实体类,可以包含多个属性,按照es的字段类型应该叫做object类型,先说说为什么不能扁平化处理在写入索引,因为一旦扁平化其实只有统计知识点相关的聚合才是正确的,若想统计题目和人的一些聚合指标有些是查不出来的,因为一旦扁平前2级数据会被冗余放大好多倍,导致计算指标会出现问题。常规的count+distinct可以出来,但是一些sum指标就不对了,会多算冗余数据的和,而且没法再减出去,如果想做可能需要多次查询才能搞定,理想情况下,一次查询就能搞定大部分查询或聚合 所以只有嵌套设计才能贴合真实的数据模型,换做关系型数据需要三张表,用mongodb也可以但是查询+聚合就没有es这么强大和高效

三层嵌套的好处就是贴合实际的数据实体模型,但是带来的弊端也非常明显,对深层嵌套数据的删除,修改比较麻烦,虽然也能做到,但是每一层的数据量越大,性能可能就越低,所以嵌套方案,适合存储和查询多级嵌套数据,且更新和删除操作少的业务情况,尽量没有修改和删除。

es的嵌套查询和聚合支持都比较完善,并且支持嵌套反转查询。嵌套数据的添加可以使用script脚本方式来完成,直接将java的bean给转换完为json提交即可。

下面来看下动态mapping+嵌套类型设置,一个模板如下:

{
  "order": 0,
  "template": "work*",
  "settings": {
    "index": {
      "number_of_replicas": "0",
      "number_of_shards": "3"
    }
  },
  "mappings": {
    "_default_": {
      "dynamic_templates": [
        {
          "nested_kps": {
            "mapping": {
              "type": "nested"
            },
            "path_match": "quests.kps"
          }
        },
        {
          "nested_quests": {
            "mapping": {
              "type": "nested"
            },
            "match": "quests"
          }
        },
        {
          "string_fields": {
            "mapping": {
              "index": "not_analyzed",
              "type": "string"
            },
            "match": "*",
            "match_mapping_type": "string"
          }
        },
        {
          "message": {
            "mapping": {
              "index": "analyzed",
              "type": "string"
            },
            "match": "message",
            "match_mapping_type": "string"
          }
        },
        {
          "date_fields": {
            "mapping": {
              "doc_values": true,
              "type": "date"
            },
            "match": "*",
            "match_mapping_type": "date"
          }
        },
        {
          "float_fields": {
            "mapping": {
              "doc_values": true,
              "type": "float"
            },
            "match": "*",
            "match_mapping_type": "float"
          }
        },
        {
          "double_fields": {
            "mapping": {
              "doc_values": true,
              "type": "double"
            },
            "match": "*",
            "match_mapping_type": "double"
          }
        },
        {
          "integer_fields": {
            "mapping": {
              "doc_values": true,
              "type": "integer"
            },
            "match": "*",
            "match_mapping_type": "integer"
          }
        },
        {
          "long_fields": {
            "mapping": {
              "doc_values": true,
              "type": "long"
            },
            "match": "*",
            "match_mapping_type": "long"
          }
        }
      ],
      "_all": {
        "enabled": false
      }
    }
  },
  "aliases": {}
}

嵌套类型的关键词是nested,如果一个类型是nested,就相当于是设置了Java里面的List是一个集合对象list,可以有多个同一种类型的实体类数据,每个数据里面还可以有自己的嵌套类型或其他类型,上面的动态mapping里面数据类型设置各个类型的定义,并且根据path设置了嵌套的动态mapping设置。这样以来就相当于设置了三层嵌套。

到此我们应该能理解嵌套模型的定义和使用场景了,下篇会给出如何插入数据和使用script追加数据。

有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。 技术债不能欠,健康债更不能欠, 求道之路,与君同行。

输入图片说明

© 著作权归作者所有

共有 人打赏支持
九劫散仙
粉丝 265
博文 175
码字总数 189625
作品 0
海淀
一行命令:从 ELK 迁移日志服务

概述 日志服务相比自建 ELK 在功能、性能、规模和成本等方面有诸多优势,参阅自建ELK vs 日志服务(SLS)全方位对比。对于已经存储在 Elasticsearch 中的数据,用户只需要一行命令就能方便地将...

吴波bruce_wu
08/09
0
0
基于弹性堆栈(ELK堆栈)的日志分析、存储及展示

ELK简介 “ELK”是三个开源项目的首字母缩写:Elasticsearch,Logstash和Kibana。Elasticsearch是一个搜索和分析引擎。Logstash是一个服务器端数据处理管道,它同时从多个源中提取数据,对其...

cchenyz
08/22
0
0
CentOS7.3下ELK日志分析系统集群搭建

Elasticsearch是个基于Lucene实现的开源、分布式、restful的全文本搜索引擎,此外他还是一个分布式实时文档存储,其中每个文档的每个filed均是可被索引的数据,且可被搜索,也是一个带实时分...

wujunqi1996
07/14
0
0
分布式搜索引擎Elasticsearch安装配置

分布式搜索引擎Elasticsearch 介绍 Elasticsearch是一个基于Lucene的开源分布式搜索引擎,具有分布式多用户能力。Elasticsearch是用java开发,提供Restful接口,能够达到实时搜索、高性能计算...

汪兴
2015/04/01
0
0
初探 ELK - 每天5分钟玩转 Docker 容器技术(89)

在开源的日志管理方案中,最出名的莫过于 ELK 了。ELK 是三个软件的合称:Elasticsearch、Logstash、Kibana。 Elasticsearch 一个近乎实时查询的全文搜索引擎。Elasticsearch 的设计目标就是...

CloudMAN
2017/11/03
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Android适配相关

Android 6.0、7.0、8.0、9.0适配 关于android适配的好文章 Android权限申请库 AndPermission 国产,有中文文档,链式调用,用起来简单 easypermissions 谷歌官方出品 PermissionsDispatcher ...

Skqing
20分钟前
1
0
Google推出了以隐私和安全为中心的变更

作为Google Play开发者政策更新的一部分,Google推出了以隐私和安全为中心的变更。 在旨在保护敏感数据的行动中,有针对请求短信和呼叫记录权限的应用程序的新规则。 即日起,只有配置为默认...

问题终结者
23分钟前
0
0
Kotlin个人理解入门篇

了解kotlin并开始使用其做开发,是从最近之前做的项目开始之初,用的是kotlin,发现kotlin是一个特简洁,很多语法糖提供使用,可以提高开发效率的语言。谷歌在2017年谷歌大会正式宣布支持and...

DannyCoder
28分钟前
0
0
springboot+rabbitmq整合

1.安装好rabbitmq 2.新建一个springBoot项目:rabbitmq_demo 3.添加pom依赖: <dependencies> <dependency> <groupId>org.springframework.boot</groupId> <artifact......

狼王黄师傅
35分钟前
0
0
使用JDK自带的jmap和jhat监控处于运行状态的Java进程

对于处于运行状态中的Java进程,JDK自带了很多工具,允许Java开发人员监控运行进程中的各种状态,比如该进程内部创建了多少个对象实例,消耗了多少内存,等等。 本文基于JDK1.8而写成。 我下...

JerryWang_SAP
45分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部