文档章节

Highlighter与BooleanQuery查询

D
 D-dragon
发布于 2016/05/10 20:02
字数 967
阅读 78
收藏 7

查询这个功能很强大,也可以说是lucene搜索最重要的功能之一,但是这个功能对英文也来比较好用,对中文支持来说,就不那么理想了。

查询支持种类很多,最简单的是TermQuery,其次是TermRangeQuery、PrefixQuery、BooleanQuery、PhraseQuery等等,看起来确实很丰富,特别是PhraseQuery这种查询,就是通过短语来进行查询,听起来很不错,可惜经过本人尝试和网上了解,这个对中文根本行不通。退而求其次,BooleanQuery相对来说靠谱一点,但稍微要注意一些东西。

BooleanQuery用途大概是这样,比如有句话为

感恩南无大慈大悲救苦救难广大灵感观世音菩萨摩诃萨

我们输入两个关键字“南无“、”观世音“,如果采用 BooleanQuery查询,可以使用类似于"and"、“or"这样的逻辑关系来组合查询,只是BooleanQuery里面的对应的是:

BooleanClause.Occur.MUST(必须包括此关键字)
BooleanClause.Occur.MUST_NOT(必须不包括此关键字)
BooleanClause.Occur.SHOULD(可以包含)

下面我们来看一个实际的例子:

public static void main(String[] args) throws Exception {
        Directory dir = new RAMDirectory();
        Analyzer analyzer = new MyIKAnalyzer();
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        IndexWriter writer = new IndexWriter(dir,config);

   writer.addDocument(getDoc("感恩南无大慈大悲救苦救难广大灵感观世音菩萨摩诃萨"));
        writer.addDocument(getDoc("观世音菩萨摩诃萨"));
        writer.close();

        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher searcher = new IndexSearcher(reader);

        BooleanQuery.Builder builder = new BooleanQuery.Builder();

        QueryParser queryParser = new QueryParser("field",analyzer);
        builder.add(queryParser.parse("观世音菩萨"), BooleanClause.Occur.MUST);
        builder.add(queryParser.parse("感恩"), BooleanClause.Occur.MUST);

        TopScoreDocCollector collector = TopScoreDocCollector.create(10);
        searcher.search(builder.build(), collector);
        ScoreDoc[] hits = collector.topDocs().scoreDocs;

        System.out.println("Found " + hits.length + " hits.");
        for(int i=0;i<hits.length;++i) {
            int docId = hits[i].doc;
            Document d = searcher.doc(docId);
            System.out.println((i + 1) + ". " + d.get("field") );
        }
        reader.close();
    }

    private static Document getDoc(String field) throws IOException {
        Document doc = new Document();
        doc.add(new TextField("field", field, Field.Store.YES));
        return doc;
    }

上面的代码不做多说,只说一个地方,BooleanQuery这个在6.0版本里面不能直接用new BooleanQuery()这种形式构造,而是通过new BooleanQuery.Builder()创建一个BooleanQuery.Builder对象,而且Builder对象add的对象不能是TermQuery这种对象,而是要由QueryParser解析后对象,如上面代码中的:

builder.add(queryParser.parse("观世音菩萨"),。。。。。);

不然的话,中文词组就查不出来,这点至关重要。 最后获取BooleanQuery查询对象是这么获取的:

builder.build()

记住,获取查询对象必须要放在添加组合查询之后。

下面来一个highlighter与booleanQuery查询相结合的例子吧,直接上代码:

public static void main(String[] args) throws Exception {
        String text = readFile("d:/content1.txt");
        //设置高亮文本的样式
        Formatter formatter = new SimpleHTMLFormatter("<span>", "</span>");
        //通过TokenStream流获取存储分词的各种信息
        Analyzer analyzer = new MyIKAnalyzer();
        Query query = getBooleanQuery(analyzer);
        TokenStream tokenStream = analyzer.tokenStream("field",new StringReader(text));
        //通过评分后的查询对象
        QueryScorer scorer = new QueryScorer(query,"field");
        Highlighter highlighter = new Highlighter(formatter,scorer);
//        默认情况下,highlighter内部使用的是SimpleFragmenter分成片断,如果满足不了需求,可以用SimpleSpanFragmenter
        highlighter.setTextFragmenter(new SimpleSpanFragmenter(scorer));
        System.out.println(highlighter.getBestFragment(tokenStream,text));

    }

    static String readFile(String filename) throws Exception {
        String line = null;
        StringBuilder records = new StringBuilder();
        BufferedReader bufferedReader = new BufferedReader(new FileReader(filename));
        while ((line = bufferedReader.readLine()) != null) {
            records.append(line);
        }
        bufferedReader.close();
        return records.toString();
    }

    public static Query getBooleanQuery(Analyzer analyzer) throws ParseException {
        BooleanQuery.Builder builder = new BooleanQuery.Builder();
        QueryParser queryParser = new QueryParser("field",analyzer);
        builder.add(queryParser.parse("地藏菩萨"), BooleanClause.Occur.MUST);
        builder.add(queryParser.parse("南无"), BooleanClause.Occur.MUST);
        return builder.build();
    }

注意,我已经在ext.dic里面添加了“地藏菩萨”这个词组,上面的程序运行结果如下:

早晨请这个水喝,在二十四小时之内,心里思念<span>地藏菩萨</span>名号“<span>南无</span><span>地藏菩萨</span>”六字,喝的时候长跪捧这杯水,要发愿请<span>地藏菩萨</span>加持。这部经上指示说面向南,南西北方都是不定的,你的意念对着<span>地藏菩萨</span>像就行了,想的是南方

需要注意的是,获取BooleanQuery查询对象的位置要放在获取tokenStream之前,不然会报错。从上面运行输出来看,结果相当完美。

© 著作权归作者所有

共有 人打赏支持
D
粉丝 6
博文 40
码字总数 40334
作品 0
资阳
程序员
lucene入门

lucene 对于从来没有接触过lucene的开发人员可能对lucene比较的恐惧,第一点,lucene的发展是相当快的,API在不断的更新当中,第二点,lucene并不是一个完整的全文检索引擎,而是一个全文检索...

似水流年0_0
2016/07/06
57
0
lucene多种搜索方式详解例子

package src; import java.io.StringReader; import java.util.Date; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.SimpleAnalyzer; import org.apache.......

berryz2007
2010/12/12
0
0
Elasticsearch 2.20 高亮显示

Elasticsearch中的高亮显示是来源于lucene的功能,他允许在一个或者多个字段上突出显示搜索内容, lucene支持三种高亮显示方式highlighter, fast-vector-highlighter, postings-highlighter...

赛克蓝德
2016/02/15
8.2K
6
Lucene6.0学习笔记——常用查询(二)

1.通配符查询WildcardQuery Lucene提供两种通配符,和?查询,表示能匹配多个字符,?仅能匹配一个字符。 例如:现在有两个词,name与nav,对他们进行通配符查询,na*可以搜索出两个词,而na?...

OSC一霸
2016/07/21
50
0
Token 贬值 exceeds length of provided text sized

lucene2.9的例子能跑通,无问题。 升级到4.1版本,编译无错,使用HighLight高亮显示查询结果时,出错。 org.apache.lucene.search.highlight.InvalidTokenOffsetsException: Token 贬值 exce...

panhan
2013/03/07
1K
3

没有更多内容

加载失败,请刷新页面

加载更多

70.shell的函数 数组 告警系统需求分析

20.16/20.17 shell中的函数 20.18 shell中的数组 20.19 告警系统需求分析 20.16/20.17 shell中的函数: ~1. 函数就是把一段代码整理到了一个小单元中,并给这个小单元起一个名字,当用到这段...

王鑫linux
今天
2
0
分布式框架spring-session实现session一致性使用问题

前言:项目中使用到spring-session来缓存用户信息,保证服务之间session一致性,但是获取session信息为什么不能再服务层获取? 一、spring-session实现session一致性方式 用户每一次请求都会...

WALK_MAN
今天
5
0
C++ yield()与sleep_for()

C++11 标准库提供了yield()和sleep_for()两个方法。 (1)std::this_thread::yield(): 线程调用该方法时,主动让出CPU,并且不参与CPU的本次调度,从而让其他线程有机会运行。在后续的调度周...

yepanl
今天
4
0
Java并发编程实战(chapter_3)(线程池ThreadPoolExecutor源码分析)

这个系列一直没再写,很多原因,中间经历了换工作,熟悉项目,熟悉新团队等等一系列的事情。并发课题对于Java来说是一个又重要又难的一大块,除非气定神闲、精力满满,否则我本身是不敢随便写...

心中的理想乡
今天
34
0
shell学习之获取用户的输入命令read

在运行脚本的时候,命令行参数是可以传入参数,还有就是在脚本运行过程中需要用户输入参数,比如你想要在脚本运行时问个问题,并等待运行脚本的人来回答。bash shell为此提 供了read命令。 ...

woshixin
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部