文档章节

Highlighter与BooleanQuery查询

D
 D-dragon
发布于 2016/05/10 20:02
字数 967
阅读 88
收藏 7

查询这个功能很强大,也可以说是lucene搜索最重要的功能之一,但是这个功能对英文也来比较好用,对中文支持来说,就不那么理想了。

查询支持种类很多,最简单的是TermQuery,其次是TermRangeQuery、PrefixQuery、BooleanQuery、PhraseQuery等等,看起来确实很丰富,特别是PhraseQuery这种查询,就是通过短语来进行查询,听起来很不错,可惜经过本人尝试和网上了解,这个对中文根本行不通。退而求其次,BooleanQuery相对来说靠谱一点,但稍微要注意一些东西。

BooleanQuery用途大概是这样,比如有句话为

感恩南无大慈大悲救苦救难广大灵感观世音菩萨摩诃萨

我们输入两个关键字“南无“、”观世音“,如果采用 BooleanQuery查询,可以使用类似于"and"、“or"这样的逻辑关系来组合查询,只是BooleanQuery里面的对应的是:

BooleanClause.Occur.MUST(必须包括此关键字)
BooleanClause.Occur.MUST_NOT(必须不包括此关键字)
BooleanClause.Occur.SHOULD(可以包含)

下面我们来看一个实际的例子:

public static void main(String[] args) throws Exception {
        Directory dir = new RAMDirectory();
        Analyzer analyzer = new MyIKAnalyzer();
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        IndexWriter writer = new IndexWriter(dir,config);

   writer.addDocument(getDoc("感恩南无大慈大悲救苦救难广大灵感观世音菩萨摩诃萨"));
        writer.addDocument(getDoc("观世音菩萨摩诃萨"));
        writer.close();

        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher searcher = new IndexSearcher(reader);

        BooleanQuery.Builder builder = new BooleanQuery.Builder();

        QueryParser queryParser = new QueryParser("field",analyzer);
        builder.add(queryParser.parse("观世音菩萨"), BooleanClause.Occur.MUST);
        builder.add(queryParser.parse("感恩"), BooleanClause.Occur.MUST);

        TopScoreDocCollector collector = TopScoreDocCollector.create(10);
        searcher.search(builder.build(), collector);
        ScoreDoc[] hits = collector.topDocs().scoreDocs;

        System.out.println("Found " + hits.length + " hits.");
        for(int i=0;i<hits.length;++i) {
            int docId = hits[i].doc;
            Document d = searcher.doc(docId);
            System.out.println((i + 1) + ". " + d.get("field") );
        }
        reader.close();
    }

    private static Document getDoc(String field) throws IOException {
        Document doc = new Document();
        doc.add(new TextField("field", field, Field.Store.YES));
        return doc;
    }

上面的代码不做多说,只说一个地方,BooleanQuery这个在6.0版本里面不能直接用new BooleanQuery()这种形式构造,而是通过new BooleanQuery.Builder()创建一个BooleanQuery.Builder对象,而且Builder对象add的对象不能是TermQuery这种对象,而是要由QueryParser解析后对象,如上面代码中的:

builder.add(queryParser.parse("观世音菩萨"),。。。。。);

不然的话,中文词组就查不出来,这点至关重要。 最后获取BooleanQuery查询对象是这么获取的:

builder.build()

记住,获取查询对象必须要放在添加组合查询之后。

下面来一个highlighter与booleanQuery查询相结合的例子吧,直接上代码:

public static void main(String[] args) throws Exception {
        String text = readFile("d:/content1.txt");
        //设置高亮文本的样式
        Formatter formatter = new SimpleHTMLFormatter("<span>", "</span>");
        //通过TokenStream流获取存储分词的各种信息
        Analyzer analyzer = new MyIKAnalyzer();
        Query query = getBooleanQuery(analyzer);
        TokenStream tokenStream = analyzer.tokenStream("field",new StringReader(text));
        //通过评分后的查询对象
        QueryScorer scorer = new QueryScorer(query,"field");
        Highlighter highlighter = new Highlighter(formatter,scorer);
//        默认情况下,highlighter内部使用的是SimpleFragmenter分成片断,如果满足不了需求,可以用SimpleSpanFragmenter
        highlighter.setTextFragmenter(new SimpleSpanFragmenter(scorer));
        System.out.println(highlighter.getBestFragment(tokenStream,text));

    }

    static String readFile(String filename) throws Exception {
        String line = null;
        StringBuilder records = new StringBuilder();
        BufferedReader bufferedReader = new BufferedReader(new FileReader(filename));
        while ((line = bufferedReader.readLine()) != null) {
            records.append(line);
        }
        bufferedReader.close();
        return records.toString();
    }

    public static Query getBooleanQuery(Analyzer analyzer) throws ParseException {
        BooleanQuery.Builder builder = new BooleanQuery.Builder();
        QueryParser queryParser = new QueryParser("field",analyzer);
        builder.add(queryParser.parse("地藏菩萨"), BooleanClause.Occur.MUST);
        builder.add(queryParser.parse("南无"), BooleanClause.Occur.MUST);
        return builder.build();
    }

注意,我已经在ext.dic里面添加了“地藏菩萨”这个词组,上面的程序运行结果如下:

早晨请这个水喝,在二十四小时之内,心里思念<span>地藏菩萨</span>名号“<span>南无</span><span>地藏菩萨</span>”六字,喝的时候长跪捧这杯水,要发愿请<span>地藏菩萨</span>加持。这部经上指示说面向南,南西北方都是不定的,你的意念对着<span>地藏菩萨</span>像就行了,想的是南方

需要注意的是,获取BooleanQuery查询对象的位置要放在获取tokenStream之前,不然会报错。从上面运行输出来看,结果相当完美。

© 著作权归作者所有

共有 人打赏支持
D
粉丝 6
博文 41
码字总数 40861
作品 0
资阳
程序员
私信 提问
lucene入门

lucene 对于从来没有接触过lucene的开发人员可能对lucene比较的恐惧,第一点,lucene的发展是相当快的,API在不断的更新当中,第二点,lucene并不是一个完整的全文检索引擎,而是一个全文检索...

似水流年0_0
2016/07/06
57
0
lucene多种搜索方式详解例子

package src; import java.io.StringReader; import java.util.Date; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.SimpleAnalyzer; import org.apache.......

berryz2007
2010/12/12
0
0
Elasticsearch 2.20 高亮显示

Elasticsearch中的高亮显示是来源于lucene的功能,他允许在一个或者多个字段上突出显示搜索内容, lucene支持三种高亮显示方式highlighter, fast-vector-highlighter, postings-highlighter...

赛克蓝德
2016/02/15
8.2K
6
Lucene6.0学习笔记——常用查询(二)

1.通配符查询WildcardQuery Lucene提供两种通配符,和?查询,表示能匹配多个字符,?仅能匹配一个字符。 例如:现在有两个词,name与nav,对他们进行通配符查询,na*可以搜索出两个词,而na?...

OSC一霸
2016/07/21
50
0
Lucene搜索流程(4.Query)

最进由于工作的事和国庆,回家了没有环境来写文章,所以搁置了好久,人一懒就不想动,其中有人催我,想想也不能半途而废了,由于之前也写了些草稿,决心今天一定要写了这玩意。闲话不多说,开...

曾杰
2012/10/10
0
2

没有更多内容

加载失败,请刷新页面

加载更多

Caffe(二)-Python-自定义网络

这里我们用一个例子先来体验一下 首先定义一下我们的环境变量 $PYTHONPATH,我这儿是Windows开发环境,至于Windows Caffe怎么编译由读者自己下去搞定 我使用的控制台是 Windows PowerShell 添...

Pulsar-V
29分钟前
2
0
ActiveMQ从入门到精通(二)之可靠性机制

ActiveMQ的可靠性机制 缘由( 确认JMS消息) 只要消息被确认之后,才认为消息被成功消费了。消息的成功消费包括三个阶段:客户端接收消息、客户端处理消息以及客户端确认消息。在事务性会话中...

一看就喷亏的小猿
37分钟前
0
0
源码分析 Mybatis 的 foreach 为什么会出现性能问题

背景 最近在做一个类似于综合报表之类的东西,需要查询所有的记录(数据库记录有限制),大概有1W条记录,该报表需要三个表的数据,也就是根据这 1W 个 ID 去执行查询三次数据库,其中,有一...

TSMYK
今天
7
0
IC-CAD Methodology企业实战之openlava

在云计算解决安全问题并成为IC界主流运算平台之前,私有的服务器集群系统仍然是各大IC公司的计算资源平台首选。 现在主流的服务器集群管理系统包括lsf,openlava,SkyForm,三者都属于lsf一系...

李艳青1987
今天
5
0
http response stream 字节流 接收与解码

在接收图片、音频、视频的时候,需要用到二进制流。 浏览器会发给客户端 字节Byte流,一串串的发过来_int8格式 -128~127(十进制),也就是8bit(位)。 客户端接收的时候,对接收到的字节收集,...

大灰狼wow
今天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部