文档章节

使用lucene来遍历ES中的文档数据

parker
 parker
发布于 2016/12/08 11:36
字数 454
阅读 111
收藏 0
点赞 0
评论 0

es 1.7.5 中使用的是lucene 4.10, 通过研究其数据结构, 明确其嵌套格式(nested)文档结构.  对于一个分片(目录)中的数据,是一个lucene索引结构,因此可以通过使用lucene api来读取这一个目录中的数据.实际上,在一个lucene索引结构中,不仅有倒排表还有顺序结构.因此我们可以通过某种方式来获取这个目录下面的所有文档完成遍历操作.

顺序结构的文档在lucene4.10中的组织是有规律的,文档id从0开始递增,前排文档的子文档,然后排其子文档对应的主文档. 如果索引子文档的field字段设置store为true.则在子文档所对应的doc id上可以相关值,否则需要在source字段中获取,至于如何解析source字段,本篇文章不做解释.

首先获取fields,然后针对某一个term(_uid)来获取所有文档(每个主文档都有一个唯一的uid).然后根据上面表述的特性就可以获取所有文档相关信息,进行相关处理.如果文档中涉及到删除的操作,需要加载删除数据的集合,然后将文档id进行过滤,剔除掉删除的记录.

        Directory directory = FSDirectory.open(new File(path));
        Lucene40LiveDocsFormat lldf = new Lucene40LiveDocsFormat();
        IOContext context = IOContext.READ;
        SegmentInfos sifs = new SegmentInfos();
        sifs.read(directory);
        Iterator<SegmentCommitInfo> its = sifs.iterator();
        List<Bits> bitss = new ArrayList<Bits>();
        while (its.hasNext()) {
            SegmentCommitInfo info = its.next();
            if (info.hasDeletions())
                bitss.add(lldf.readLiveDocs(directory, info, context));
        }
        // directory.
        IndexReader r = IndexReader.open(directory);
        IndexSearcher is = new IndexSearcher(r);
        Fields fields = MultiFields.getFields(r);
        System.out.println(fields.size());
        Iterator<String> it=fields.iterator();
        while(it.hasNext()){
            System.out.println(it.next());
        }
        System.out.println(fields.terms("commus.interactionIdx").getDocCount());
       
        int count = fields.terms("_uid").getDocCount();
        System.out.println(count);
        for (int i = 0; i < count; i++) {
            Document doc = is.doc(i);
            System.out.println(doc.getFields());
            System.out.println(doc.getField("callId"));
        }
        r.close();

 

© 著作权归作者所有

共有 人打赏支持
parker
粉丝 1
博文 13
码字总数 6310
作品 0
长春
ElasticSearch学习笔记1

es 的来源 问题拆解 如果用数据库来实现会怎么样? 什么是全文检索? 什么是 Lucene? 数据库实现 先看第一个问题,如果我们用数据来实现搜索功能,可能的语句就是对 string 建立索引,或者直...

超级个体颛顼
2017/09/06
0
0
Elasticsearch优化方案

关于Lucene: ApacheLucene将写入索引的所有信息组织成一种倒排索引(Inverted Index)的结构之中,该结构是种将词项映射到文档的数据结构。其工作方式与传统的关系数据库不同,大致来说倒排...

莫问viva
2016/07/05
144
0
Elasticsearch简介

ES是一个高扩展的、开源的、全文检索的搜索引擎,它提供了近实时的索引、搜索、分析功能。Shay Banon是ES奠基者,系统是在Apache Lucene的基础上采用Java实现的。Lucene非常复杂,而ES通过R...

Mr_YangFei
2016/03/17
256
0
Elasticsearch工作原理

一、关于搜索引擎 各位知道,搜索程序一般由索引链及搜索组件组成。 索引链功能的实现需要按照几个独立的步骤依次完成:检索原始内容、根据原始内容来创建对应的文档、对创建的文档进行索引。...

莫问viva
2016/05/15
3.6K
0
Elasticsearch实践指南

http://nginxs.blog.51cto.com/ 从2014年到现在接触ES(Elasticsearch)已经两年多了,感触良多尤其ES的开盒即用特性完全区别于之前接触复杂的hadoop和solor。ES不需要你对它了解就能很快入门...

qq850900633
2017/05/18
0
0
ElasticSearch介绍

什么是搜索? 如果使用数据库做搜索会怎样? 什么是全文检索和Lucene 什么是ElasticSearch? 1. 什么是搜索? 百度、google上查询任何需要的内容信息。这种是通用的搜索。但是百度只是一个通用...

若与
06/25
0
0
lucene 的评分机制

lucene 的评分机制 elasticsearch是基于lucene的,所以他的评分机制也是基于lucene的。评分就是我们搜索的短语和索引中每篇文档的相关度打分。 如果没有干预评分算法的时候,每次查询,lucen...

王二狗子11
01/07
0
0
elasticsearch基础操作01

ElasticSearch ES是一个基于Lucene实现的开源、分布式、Restful的全文本搜索引擎;此外,它还是一个分布式实时文档存储,其中每个文档的每个 field均是被索引的数据,且可被搜索;也是一个带...

limingyu0312
05/15
0
0
浅谈Lucene中的DocValues

前言:在Lucene4.x之后,出现一个重大的特性,就是索引支持DocValues,这对于广大的solr和elasticsearch用户,无疑来说是一个福音,这玩意的出现通过牺牲一定的磁盘空间带来的好处主要有两个...

九劫散仙
2016/05/10
150
0
Elasticsearch学习,请先看这一篇!

题记: Elasticsearch研究有一段时间了,现特将Elasticsearch相关核心知识、原理从初学者认知、学习的角度,从以下9个方面进行详细梳理。欢迎讨论…… 0. 带着问题上路——ES是如何产生的? ...

wojiushiwo987
2016/08/18
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

gcviewer的使用

1、没有安装git软件 在编译打包GCViewer的过程中,不能执行git命令,错误信息如下: [ERROR] Failed to execute goal org.codehaus.mojo:buildnumber-maven-plugin:1.4:create (create-build...

刀锋
15分钟前
1
0
Android LogUtil 日志优化 调试的时候打印 点击跳转

打印日志的时候,可以点击跳转 LogUtil.java public class LogUtil { private static boolean IS_DEBUG = BuildConfig.DEBUG; public static void i(String tag, String message) {......

Jay_kyzg
25分钟前
0
0
人工智能你必须掌握的32个算法(二)归并排序算法

归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子...

木头释然
27分钟前
0
0
第十四章NFS服务搭建与配置

14.1 NFS介绍 NFS介绍 NFS是Network File System的缩写;这个文件系统是基于网路层面,通过网络层面实现数据同步 NFS最早由Sun公司开发,分2,3,4三个版本,2和3由Sun起草开发,4.0开始Netap...

Linux学习笔记
50分钟前
1
0
流利阅读笔记27-20180716待学习

生了娃照样能打,两位母亲温网会师 Lala 2018-07-16 1.今日导读 现今在生儿育女后回归事业的母亲们已经非常多见,但是很少有人想到,以高强度运动与竞争激烈为特色的竞技体育项目也会有 work...

aibinxiao
51分钟前
6
0
Guava 源码分析(Cache 原理【二阶段】)

前言 在上文「Guava 源码分析(Cache 原理)」中分析了 Guava Cache 的相关原理。 文末提到了回收机制、移除时间通知等内容,许多朋友也挺感兴趣,这次就这两个内容再来分析分析。 在开始之前...

crossoverJie
今天
0
0
OSChina 周一乱弹 —— 如果是你喜欢的女同学找你借钱

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @guanglun :分享Michael Learns To Rock的单曲《Fairy Tale》 《Fairy Tale》- Michael Learns To Rock 手机党少年们想听歌,请使劲儿戳(这...

小小编辑
今天
842
20
NNS域名系统之域名竞拍

0x00 前言 其实在官方文档中已经对域名竞拍的过程有详细的描述,感兴趣的可以移步http://doc.neons.name/zh_CN/latest/nns_protocol.html#id30 此处查阅。 我这里主要对轻钱包开发中会用到的...

暖冰
今天
0
0
32.filter表案例 nat表应用 (iptables)

10.15 iptables filter表案例 10.16/10.17/10.18 iptables nat表应用 10.15 iptables filter表案例: ~1. 写一个具体的iptables小案例,需求是把80端口、22端口、21 端口放行。但是,22端口我...

王鑫linux
今天
0
0
shell中的函数&shell中的数组&告警系统需求分析

20.16/20.17 shell中的函数 20.18 shell中的数组 20.19 告警系统需求分析

影夜Linux
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部