文档章节

使用lucene来遍历ES中的文档数据

parker
 parker
发布于 2016/12/08 11:36
字数 454
阅读 114
收藏 0

es 1.7.5 中使用的是lucene 4.10, 通过研究其数据结构, 明确其嵌套格式(nested)文档结构.  对于一个分片(目录)中的数据,是一个lucene索引结构,因此可以通过使用lucene api来读取这一个目录中的数据.实际上,在一个lucene索引结构中,不仅有倒排表还有顺序结构.因此我们可以通过某种方式来获取这个目录下面的所有文档完成遍历操作.

顺序结构的文档在lucene4.10中的组织是有规律的,文档id从0开始递增,前排文档的子文档,然后排其子文档对应的主文档. 如果索引子文档的field字段设置store为true.则在子文档所对应的doc id上可以相关值,否则需要在source字段中获取,至于如何解析source字段,本篇文章不做解释.

首先获取fields,然后针对某一个term(_uid)来获取所有文档(每个主文档都有一个唯一的uid).然后根据上面表述的特性就可以获取所有文档相关信息,进行相关处理.如果文档中涉及到删除的操作,需要加载删除数据的集合,然后将文档id进行过滤,剔除掉删除的记录.

        Directory directory = FSDirectory.open(new File(path));
        Lucene40LiveDocsFormat lldf = new Lucene40LiveDocsFormat();
        IOContext context = IOContext.READ;
        SegmentInfos sifs = new SegmentInfos();
        sifs.read(directory);
        Iterator<SegmentCommitInfo> its = sifs.iterator();
        List<Bits> bitss = new ArrayList<Bits>();
        while (its.hasNext()) {
            SegmentCommitInfo info = its.next();
            if (info.hasDeletions())
                bitss.add(lldf.readLiveDocs(directory, info, context));
        }
        // directory.
        IndexReader r = IndexReader.open(directory);
        IndexSearcher is = new IndexSearcher(r);
        Fields fields = MultiFields.getFields(r);
        System.out.println(fields.size());
        Iterator<String> it=fields.iterator();
        while(it.hasNext()){
            System.out.println(it.next());
        }
        System.out.println(fields.terms("commus.interactionIdx").getDocCount());
       
        int count = fields.terms("_uid").getDocCount();
        System.out.println(count);
        for (int i = 0; i < count; i++) {
            Document doc = is.doc(i);
            System.out.println(doc.getFields());
            System.out.println(doc.getField("callId"));
        }
        r.close();

 

© 著作权归作者所有

共有 人打赏支持
parker
粉丝 1
博文 13
码字总数 6310
作品 0
长春
ElasticSearch学习笔记1

es 的来源 问题拆解 如果用数据库来实现会怎么样? 什么是全文检索? 什么是 Lucene? 数据库实现 先看第一个问题,如果我们用数据来实现搜索功能,可能的语句就是对 string 建立索引,或者直...

超级个体颛顼
2017/09/06
0
0
Elasticsearch优化方案

关于Lucene: ApacheLucene将写入索引的所有信息组织成一种倒排索引(Inverted Index)的结构之中,该结构是种将词项映射到文档的数据结构。其工作方式与传统的关系数据库不同,大致来说倒排...

莫问viva
2016/07/05
144
0
ES内部分片处理机制——Segment

前阵子看了一下es文档中关于shards原理的介绍,于是按照自己的理解总结了一下,基本上是照着原文翻译的,个别部分是按照自己的理解写的。 逆向索引/倒排索引: 与传统的数据库不同,在es中,...

键走偏锋
2017/09/25
0
0
Elasticsearch简介

ES是一个高扩展的、开源的、全文检索的搜索引擎,它提供了近实时的索引、搜索、分析功能。Shay Banon是ES奠基者,系统是在Apache Lucene的基础上采用Java实现的。Lucene非常复杂,而ES通过R...

Mr_YangFei
2016/03/17
256
0
[Elasticsearch] 索引管理 (二)

自定义解析器(Custom Analyzers) 虽然ES本身已经提供了一些解析器,但是通过组合字符过滤器(Character Filter),分词器(Tokenizer)以及词条过滤器(Token Filter)来创建你自己的解析器才会显示...

键走偏锋
2017/08/02
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Java中的移位运算符

国庆给自己放了个小长期二十几天,回来继续更新专栏 上一篇文章我们说了Java里的二进制,知道了计算机是以0和1来处理数据的,在阅读源码的过程中,经常会看到这些符号<< ,>>,>>>,这些符号...

SuShine
23分钟前
2
0
linux版QQ

下载地址在这 http://yun.tzmm.com.cn/index.php/s/XRbfi6aOIjv5gwj Appimage包不用做什么别的处理,安装啥的都不需要。。找到文件所在目录,终端中修改一下文件的权限 chmod 777 QQ-2017112...

悲催的古灵武士
28分钟前
1
0
咕泡-MyBatis 实用篇作业

1. Mapper在spring管理下其实是单例,为什么可以是一个单例? 首先,mapper 内部不包含 成员字段,无状态单例是安全的 另外,一直存在不用每次调用都new 一个新实例 2. MyBatis在Spring集成下...

职业搬砖20年
31分钟前
2
0
MQTT协议的初浅认识之连接建立

MQTT百科 MQTT(消息队列遥测传输)是ISO 标准(ISO/IEC PRF 20922)下基于发布/订阅范式的消息协议。它工作在 TCP/IP协议族上,是为硬件性能低下的远程设备以及网络状况糟糕的情况下而设计的发布...

亚林瓜子
48分钟前
1
0
OpenStack部署都有哪些方式

对于每一个刚接触到OpenStack的新人而言,安装无疑是最困难的,同时这也客观上提高了大家学习OpenStack云计算的技术门槛。想一想,自己3年前网上偶然接触到OpenStack时,一头茫然,手动搭建一...

tututu_jiang
48分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部