文档章节

谈谈lucene的DocValues合并(BinaryField域的合并过程)

F
 FAT_mt
发布于 01/26 20:39
字数 318
阅读 61
收藏 0

谈谈lucene的DocValues特性之BinaryDocValuesField 中说过,BinaryField的写入方式是按照文档的添加顺序依次写入的,并且压缩方式也较简单,其实合并的方式也很简单,即将已生成的各段BinaryDocValues单纯的重新写入到一个新的段中:

对于每个段都对应一个BinaryDocValuesSub,由一个DocMap与BinaryDocValues构成)。DocMap用于返回当前数据段中的docId对应到新段中的值:

由于BinaryDocValues没有IndexSort选项,因此只考虑以下两种情况:如果没有文档删除,每段中的文档ID在新生成的段中的ID=前一个段中的文档数量+当前段中的文档ID;如果某个数据段存在文档删除,例如有10篇文档,ID号为0-9(第1、5、8三篇文档被删除后)则重新变成:

而BinaryDocValues只需获取当前docID对应的值即可。

© 著作权归作者所有

F

FAT_mt

粉丝 6
博文 117
码字总数 68374
作品 4
南京
高级程序员
私信 提问
加载中

评论(0)

solr的schema.xml学习

此文转载自益达的博客:http://iamyida.iteye.com/blog/2213354 schema.xml是用来定义索引数据中的域的,包括域名称,域类型,域是否索引,是否分词,是否存储,是否标准化即Norms,是否存储...

GarenBean
2016/01/14
119
0
Apache Lucene - Index File Formats V7.3.0

Apache Lucene - Index File Formats(索引文件格式) Introduction(引言) This document defines the index file formats used in this version of Lucene. If you are using a different ver......

囧雪啥都不知道
2018/05/10
0
0
Solr5之Schema详解

schema.xml 是用来定义索引数据中的域的,包括域名称,域类型,域是否索引,是否分词,是否存储,是否标准化即 Norms ,是否存储项向量等等。 schema.xml 配置文件的根元素就是 schema, 有个...

文心丶雕龙
2016/06/22
45
0
Lucene DocValues详解

今天斗胆来试试DocValues,对于DocValues我想大家都不会觉得陌生,同时又不是非常熟悉,就是那种熟悉而又陌生的感觉。 一、docValues是什么鬼呢? DocValues在LUCENE-3518才引入新特征,初生...

大明搜索
2017/03/07
337
0
基于Lucene查询原理分析Elasticsearch的性能

前言 Elasticsearch是一个很火的分布式搜索系统,提供了非常强大而且易用的查询和分析能力,包括全文索引、模糊查询、多条件组合查询、地理位置查询等等,而且具有一定的分析聚合能力。因为其...

亦征
2018/10/29
0
0

没有更多内容

加载失败,请刷新页面

加载更多

何时使用vs ref vs out

前几天有人问我应该使用参数关键字out而不是ref 。 虽然我(我认为)理解了ref和out关键字之间的差异( 之前已经提到过 ),最好的解释似乎是ref == in and out ,什么是一些(假设的或代码的...

javail
34分钟前
51
0
宜信如何做到既满足远程办公的短时便利性需求,又不丧失安全性

对于IT互联网企业来说远程办公并不陌生,但是疫情的突然爆发,直接大规模的使用远程办公应用,势必会带来一系列的安全问题,尤其是大量隐私数据安全问题,因为此次的疫情,大量的企业内部人员...

宜信技术学院
39分钟前
63
0
如何获得元素的渲染高度?

如何获得元素的渲染高度? 假设您有一个<div>元素,其中包含一些内容。 内部的内容将扩展<div>的高度。 当您没有明确设置高度时,如何获得“渲染的”高度。 显然,我尝试过: var h = docume...

技术盛宴
50分钟前
40
0
zookeeper宕机与dubbo直连

加入zookeeper宕机后,一段时间内consumer依然能够获取provider的服务,实际上使用了本地缓存进行通讯,这也是dubbo健壮性的一种体验。 dubbo健壮性的表现: 1.监控中心宕机,不影响使用,只...

七宝1
51分钟前
44
0
一分钟了解【X-Frame-Options设置】

含义 通过设置X-Frame-Options来控制网页能否被frame或iframe嵌入。 目的 防止出现 点击劫持 :攻击者使用一个透明的iframe,覆盖在一个网页上,然后诱使用户在网页上进行操作,此时用户将在...

crazymus
57分钟前
48
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部