文档章节

lucene4.7 收集器Collector(七)

一枚Sir
 一枚Sir
发布于 2014/04/11 10:40
字数 858
阅读 1658
收藏 3

我们先来回顾下,一个基本的搜索流程是怎么完成的 
1,得到一个索引目录Directory(可能基于内存的或者磁盘的)。 
2,得到一个DirectoryReader。 
3,实例化查询组件IndexSearcher。 
4,检索得到TopDoc查询结果集 
5,遍历ScoresDocs处理结果 

我们看下这个检索的流程,大概可以分这5步,前1,2,3算是准备工作,后面的2步是我们经常需要进行数据处理的地方,那么我们Collector到底工作在哪一步呢?,其实Collector真正的起作用是在3-4步之间的。 

那么Collector的作用是干什么的?为什么需要使用Collector? 

在这之前先分析下TopDocs这个类,这个类的工作原理,其实在后台使用的也是一个收集器,收收集我们检索的结果,通过TopDocsCollector这个基类下面的2个子类收集器,来收集一次我们检索的命中数据。 
所以collector的作用就是收集某些我们需要定制化的结果集,某些情况下使用collector可以可以极大的提升我们程序的性能,通过collector可以让我们对每一个匹配上的文档做一些特有的定制化操作,当然前提是在我们需要使用的情况下。 
下面我们来看下collector基类的几个方法

方法 说明
collect() 检索时,每匹配上一个文档,都会调用此方法
acceptsDocsOutOfOrder() 测试本collector是否能处理无序到达的docid
setScorer(Scorer scorer) 处理检索结果的评分
setNextReader(AtomicReaderContext context) 检索时,在多个索引段结构之间切换的方法

下面我们来看下自定义的一个collector来实现ScoreDoc类的功能,代码如下.

package com.piaoxuexianjing;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.index.AtomicReaderContext;
import org.apache.lucene.search.Collector;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Scorer;

/**
 * @author
 * @version 1.0
 * 
 * 自定义收集器
 * 实现评分收集
 * **/
public class MyScoreCollector extends Collector {
    //private HashMap<String, String> documents=new HashMap<String, String>();
    List<ScoreDoc> docs=new ArrayList<ScoreDoc>();
    private Scorer scorer;//scorer类
    private int docBase;//全局相对段基数
     

    @Override
    public boolean acceptsDocsOutOfOrder() {
        // TODO Auto-generated method stub
        //返回true是允许无次序的ID
        //返回false必须是有次序的
        return true;
    }

    @Override
    public void collect(int arg0) throws IOException {
        /**
         * 匹配上一个文档
         * 就记录其docid与打分情况
         * 
         * */
        docs.add(new ScoreDoc(arg0+docBase,scorer.score()));//
    }
//    BinaryDocValues names;//字符类型的内置存储
//    BinaryDocValues bookNames;//字符类型的内置存储
//    BinaryDocValues ids;//字符类型的内置存储
//    BinaryDocValues prices;//字符类型的内置存储
//    FieldCache.Doubles d ; //数值类型的内置存储
//    FieldCache.Ints ints;//数值类型的内置存储
    @Override
    public void setNextReader(AtomicReaderContext arg0) throws IOException {
        this.docBase=arg0.docBase;//记录每个索引段结构的相对位置
    }

    @Override
    public void setScorer(Scorer arg0) throws IOException {
        // TODO Auto-generated method stub
        this.scorer=arg0;//记录改匹配的打分情况
        
    }
}

测试类的核心代码

    //自定义收集器
           MyScoreCollector  scoreCollector=new MyScoreCollector();
          searcher.search(new MatchAllDocsQuery(), scoreCollector);
          /**
           * 自定义的收集类,实现效果===>ScoreDocs类
           * 
           **/
          List<ScoreDoc> s=scoreCollector.docs;
          for(ScoreDoc sc:s){
              System.out.println(sc.doc+"===="+sc.score);
          }

输出结果如下

0====1.0
1====1.0
2====1.0
3====1.0
4====1.0
5====1.0
6====1.0
7====1.0

至此,我们就利用自定义的collector完成了一个简单的收集评分功能,当然我们可以根据自己的业务,来实现各种各样的collector,灵活运用!


© 著作权归作者所有

一枚Sir
粉丝 119
博文 209
码字总数 350904
作品 0
朝阳
架构师
私信 提问
Lucene4.3开发之第七步之合体后期(七)

本篇要写的是关于Lucene里面Collector这个东西,暂且称他为收集器吧,先看下Lucene内置的Collector类的继承图。 我们先来回顾一下,一个基本的搜索流程是怎么完成的: 1、得到一个索引目录的...

heroShane
2014/02/21
122
0
Grid Control OMS Agent代理工作原理图

我们在使用Grid Control集中化管理OS、Oracle数据库时要求在host上安装Agent代理程序,以便Agent定期收集OS、Oracle信息传输给Oracle Grid Control Management Server(OMS),并执行OMS下达的...

科技小能手
2017/11/12
0
0
java8函数式编程--收集器collector

java8的stream api能很方便我们对数据进行统计分类等工作,以前我们写的很多统计数据的代码往往是循环迭代得到的,不说别人看不懂,自己的代码放久了也要重新看一段时间才能看得懂。现在,j...

JoshuaShaw
2015/08/04
2.9K
2
JVM内存模型及垃圾收集策略解析

AD: JVM内存模型是Java的核心技术之一,之前51CTO曾为大家介绍过JVM分代垃圾回收策略的基础概念,现在很多编程语言都引入了类似Java JVM的内存模型和垃圾收集器的机制,下面我们将主要针对J...

LEON_SHI
2014/08/19
119
0
java.lang.ref.Reference,java引用对象及垃圾收集器的工具类

等下会以英文源文档+翻译的方式来分析Reference这一个类。 约定对应的中文翻译对对应于正上面的英文或者代码,英文源文档直接对应于正上面的代码。 >类的定义 Abstract base class for refe...

何金池
2014/03/19
577
0

没有更多内容

加载失败,请刷新页面

加载更多

springboot 403 问题

添加WebAppConfigurer 配置 @Configuration@EnableAutoConfigurationpublic class WebAppConfigurer extends WebMvcConfigurerAdapter { public WebAppConfigurer() { } ......

布袋和尚_爱吃鱼
1分钟前
1
0
Python自动更换壁纸爬虫与tkinter结合

直接上代码 import ctypesimport timeimport requestsimport osfrom threading import Threadfrom tkinter import Tk, Label, Button,Entry,StringVar,messagebox# '放到AppData\Roami......

物种起源-达尔文
2分钟前
1
0
Postgresql Study 笔记

Postgresql 安装 Windows, MAC Install Postgresql 下载地址: https://www.enterprisedb.com/downloads/postgres-postgresql-downloads Linux Install sudo apt-get update sudo apt-get in......

slagga
4分钟前
1
0
layer.open 打开新页面传参问题

如图所示,点击出售,把A页面的数据传到弹框上面,因为弹框比较复杂,所以使用引入一个新页面。 A.html a.js B.html b.js 1、第一种方案 sellInte: function (){ var obj = document.g...

木九天
7分钟前
1
0
沙龙报名 | 区块链数据服务技术应用实践

京东云是国内首家提供区块链数据在线分析服务产品的公司,也是行业内首家对区块链数据服务进行开源的公司。 本次沙龙是京东云BDS开源后,首次在深圳举办线下沙龙,我们将邀请京东云BDS团队核...

京东云技术新知
7分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部