文档章节

Highlighter与BooleanQuery查询

D
 D-dragon
发布于 2016/05/10 20:02
字数 967
阅读 74
收藏 7
点赞 2
评论 0

查询这个功能很强大,也可以说是lucene搜索最重要的功能之一,但是这个功能对英文也来比较好用,对中文支持来说,就不那么理想了。

查询支持种类很多,最简单的是TermQuery,其次是TermRangeQuery、PrefixQuery、BooleanQuery、PhraseQuery等等,看起来确实很丰富,特别是PhraseQuery这种查询,就是通过短语来进行查询,听起来很不错,可惜经过本人尝试和网上了解,这个对中文根本行不通。退而求其次,BooleanQuery相对来说靠谱一点,但稍微要注意一些东西。

BooleanQuery用途大概是这样,比如有句话为

感恩南无大慈大悲救苦救难广大灵感观世音菩萨摩诃萨

我们输入两个关键字“南无“、”观世音“,如果采用 BooleanQuery查询,可以使用类似于"and"、“or"这样的逻辑关系来组合查询,只是BooleanQuery里面的对应的是:

BooleanClause.Occur.MUST(必须包括此关键字)
BooleanClause.Occur.MUST_NOT(必须不包括此关键字)
BooleanClause.Occur.SHOULD(可以包含)

下面我们来看一个实际的例子:

public static void main(String[] args) throws Exception {
        Directory dir = new RAMDirectory();
        Analyzer analyzer = new MyIKAnalyzer();
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        IndexWriter writer = new IndexWriter(dir,config);

   writer.addDocument(getDoc("感恩南无大慈大悲救苦救难广大灵感观世音菩萨摩诃萨"));
        writer.addDocument(getDoc("观世音菩萨摩诃萨"));
        writer.close();

        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher searcher = new IndexSearcher(reader);

        BooleanQuery.Builder builder = new BooleanQuery.Builder();

        QueryParser queryParser = new QueryParser("field",analyzer);
        builder.add(queryParser.parse("观世音菩萨"), BooleanClause.Occur.MUST);
        builder.add(queryParser.parse("感恩"), BooleanClause.Occur.MUST);

        TopScoreDocCollector collector = TopScoreDocCollector.create(10);
        searcher.search(builder.build(), collector);
        ScoreDoc[] hits = collector.topDocs().scoreDocs;

        System.out.println("Found " + hits.length + " hits.");
        for(int i=0;i<hits.length;++i) {
            int docId = hits[i].doc;
            Document d = searcher.doc(docId);
            System.out.println((i + 1) + ". " + d.get("field") );
        }
        reader.close();
    }

    private static Document getDoc(String field) throws IOException {
        Document doc = new Document();
        doc.add(new TextField("field", field, Field.Store.YES));
        return doc;
    }

上面的代码不做多说,只说一个地方,BooleanQuery这个在6.0版本里面不能直接用new BooleanQuery()这种形式构造,而是通过new BooleanQuery.Builder()创建一个BooleanQuery.Builder对象,而且Builder对象add的对象不能是TermQuery这种对象,而是要由QueryParser解析后对象,如上面代码中的:

builder.add(queryParser.parse("观世音菩萨"),。。。。。);

不然的话,中文词组就查不出来,这点至关重要。 最后获取BooleanQuery查询对象是这么获取的:

builder.build()

记住,获取查询对象必须要放在添加组合查询之后。

下面来一个highlighter与booleanQuery查询相结合的例子吧,直接上代码:

public static void main(String[] args) throws Exception {
        String text = readFile("d:/content1.txt");
        //设置高亮文本的样式
        Formatter formatter = new SimpleHTMLFormatter("<span>", "</span>");
        //通过TokenStream流获取存储分词的各种信息
        Analyzer analyzer = new MyIKAnalyzer();
        Query query = getBooleanQuery(analyzer);
        TokenStream tokenStream = analyzer.tokenStream("field",new StringReader(text));
        //通过评分后的查询对象
        QueryScorer scorer = new QueryScorer(query,"field");
        Highlighter highlighter = new Highlighter(formatter,scorer);
//        默认情况下,highlighter内部使用的是SimpleFragmenter分成片断,如果满足不了需求,可以用SimpleSpanFragmenter
        highlighter.setTextFragmenter(new SimpleSpanFragmenter(scorer));
        System.out.println(highlighter.getBestFragment(tokenStream,text));

    }

    static String readFile(String filename) throws Exception {
        String line = null;
        StringBuilder records = new StringBuilder();
        BufferedReader bufferedReader = new BufferedReader(new FileReader(filename));
        while ((line = bufferedReader.readLine()) != null) {
            records.append(line);
        }
        bufferedReader.close();
        return records.toString();
    }

    public static Query getBooleanQuery(Analyzer analyzer) throws ParseException {
        BooleanQuery.Builder builder = new BooleanQuery.Builder();
        QueryParser queryParser = new QueryParser("field",analyzer);
        builder.add(queryParser.parse("地藏菩萨"), BooleanClause.Occur.MUST);
        builder.add(queryParser.parse("南无"), BooleanClause.Occur.MUST);
        return builder.build();
    }

注意,我已经在ext.dic里面添加了“地藏菩萨”这个词组,上面的程序运行结果如下:

早晨请这个水喝,在二十四小时之内,心里思念<span>地藏菩萨</span>名号“<span>南无</span><span>地藏菩萨</span>”六字,喝的时候长跪捧这杯水,要发愿请<span>地藏菩萨</span>加持。这部经上指示说面向南,南西北方都是不定的,你的意念对着<span>地藏菩萨</span>像就行了,想的是南方

需要注意的是,获取BooleanQuery查询对象的位置要放在获取tokenStream之前,不然会报错。从上面运行输出来看,结果相当完美。

© 著作权归作者所有

共有 人打赏支持
D
粉丝 6
博文 37
码字总数 35994
作品 0
资阳
程序员
lucene入门

lucene 对于从来没有接触过lucene的开发人员可能对lucene比较的恐惧,第一点,lucene的发展是相当快的,API在不断的更新当中,第二点,lucene并不是一个完整的全文检索引擎,而是一个全文检索...

似水流年0_0 ⋅ 2016/07/06 ⋅ 0

lucene多种搜索方式详解例子

package src; import java.io.StringReader; import java.util.Date; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.SimpleAnalyzer; import org.apache.......

berryz2007 ⋅ 2010/12/12 ⋅ 0

Elasticsearch 2.20 高亮显示

Elasticsearch中的高亮显示是来源于lucene的功能,他允许在一个或者多个字段上突出显示搜索内容, lucene支持三种高亮显示方式highlighter, fast-vector-highlighter, postings-highlighter...

赛克蓝德 ⋅ 2016/02/15 ⋅ 6

Lucene6.0学习笔记——常用查询(二)

1.通配符查询WildcardQuery Lucene提供两种通配符,和?查询,表示能匹配多个字符,?仅能匹配一个字符。 例如:现在有两个词,name与nav,对他们进行通配符查询,na*可以搜索出两个词,而na?...

OSC一霸 ⋅ 2016/07/21 ⋅ 0

lucene 各种查询方式

各种查询 方式一:使用QueryParser与查询语法。(会使用分词器) MultiFieldQueryParser 查询字符串 ------------------------> Query对象 例如: 上海 AND 天气 上海 OR 天气 上海新闻 AND ...

勇敢的蜗牛_Z ⋅ 2015/05/13 ⋅ 0

Token 贬值 exceeds length of provided text sized

lucene2.9的例子能跑通,无问题。 升级到4.1版本,编译无错,使用HighLight高亮显示查询结果时,出错。 org.apache.lucene.search.highlight.InvalidTokenOffsetsException: Token 贬值 exce...

panhan ⋅ 2013/03/07 ⋅ 3

Lucene搜索流程(4.Query)

最进由于工作的事和国庆,回家了没有环境来写文章,所以搁置了好久,人一懒就不想动,其中有人催我,想想也不能半途而废了,由于之前也写了些草稿,决心今天一定要写了这玩意。闲话不多说,开...

曾杰 ⋅ 2012/10/10 ⋅ 2

BooleanQuery效率问题

请问大神们,在使用lucene时,有约20000个title,每个title的内容包含2000个key中的一部分。即正排约20000,倒排约2000。使用BooleanQuery查询包含某一key的所有title的,效率上当某一个key...

萧破浪 ⋅ 2016/02/01 ⋅ 0

Lucene6.0 BooleanQuery组合查询应用实例

组合关系代表的意思如下: 1、MUST和MUST表示“与”的关系,即“并集”。 2、MUST和MUSTNOT前者包含后者不包含。 3、MUSTNOT和MUSTNOT没意义 4、SHOULD与MUST表示MUST,SHOULD失去意义; 5、S...

liuhuics10 ⋅ 2016/04/28 ⋅ 0

Lucene打分规则与Similarity模块详解

搜索排序结果的控制 Lucnen作为搜索引擎中,应用最为广泛和成功的开源框架,它对搜索结果的排序,有一套十分完整的机制来控制;但我们控制搜索结果排序的目的永远只有一个,那就是信息过滤,...

Breath_L ⋅ 2012/03/27 ⋅ 2

没有更多内容

加载失败,请刷新页面

加载更多

下一页

用SQL命令查看Mysql数据库大小

要想知道每个数据库的大小的话,步骤如下: 1、进入information_schema 数据库(存放了其他的数据库的信息) use information_schema; 2、查询所有数据的大小: select concat(round(sum(da...

源哥L ⋅ 28分钟前 ⋅ 0

两个小实验简单介绍@Scope("prototype")

实验一 首先有如下代码(其中@RestController的作用相当于@Controller+@Responsebody,可忽略) @RestController//@Scope("prototype")public class TestController { @RequestMap...

kalnkaya ⋅ 33分钟前 ⋅ 0

php-fpm的pool&php-fpm慢执行日志&open_basedir&php-fpm进程管理

12.21 php-fpm的pool pool是PHP-fpm的资源池,如果多个站点共用一个pool,则可能造成资源池中的资源耗尽,最终访问网站时出现502。 为了解决上述问题,我们可以配置多个pool,不同的站点使用...

影夜Linux ⋅ 43分钟前 ⋅ 0

微服务 WildFly Swarm 管理

Expose Application Metrics and Information 要公开关于我们的微服务的有用信息,我们需要做的就是将监视器模块添加到我们的pom.xml中: 这将使在管理和监视功能得到实现。从监控角度来看,...

woshixin ⋅ 43分钟前 ⋅ 0

java连接 mongo伪集群部署遇到的坑

部署mongo伪集群 #创建mongo数据存放文件地址mkdir -p /usr/local/config1/datamkdir -p /usr/local/config2/data mkdir -p /usr/local/config3/data mkdir -p /usr/local/config1/l......

努力爬坑人 ⋅ 44分钟前 ⋅ 0

React Native & Weex 区别

JS引擎 Weex使用V8, React native使用JSCore JS开发框架 ( Js Framework ) Weex基于vue.js(2W+ star)。小巧轻量的前端开发框架,组件化,数据绑定,2.0引入virtual dom。 ReactNative使用...

东东笔记 ⋅ 52分钟前 ⋅ 1

UIkit 分页组件动态加载简单实现

1. 问题描述 使用过UIkit分页组件的都清楚,UIkit的分页不能动态刷新数据,也就是不能在点击下一页的时候,动态从后台加载数据,并且刷新页数以及该页数上的数据,下面是一个简单实现,没有做...

影狼 ⋅ 53分钟前 ⋅ 0

Mobx入门之三:Provider && inject

上一节中<App/>组件传递状态temperatures给children -- <TemperatureInput />,如果组建是一个tree, 那么属性的传递则会非常繁琐。redux使用Provider给子组件提供store, connect将子组件和s...

pengqinmm ⋅ 55分钟前 ⋅ 0

魔兽世界 7.0版本 S23/S24/S25全职业普通+精锐套

  死亡骑士   (联盟)   (部落)   (精锐)   恶魔猎手   (联盟)   (部落)   (精锐)   德鲁伊   (联盟)   (部落)   (精锐)   猎人   (联盟) ...

wangchen1999 ⋅ 今天 ⋅ 0

maven顶级pom和子pom的版本号批量修改

当一个版本发布,新起一个版本时,我们只需要手动修改一下项目中pom.xml的版本号就可以了。但是如果这个maven项目有很多的子模块项目,那么一个个手动的去改就显得费时费力又繁琐了。还好,m...

ArlenXu ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部