文档章节

Solr 高亮源码阅读

go2school
 go2school
发布于 2015/08/26 22:19
字数 315
阅读 149
收藏 3

Solr高亮使用了很多Lucene的源码,在Lucene源码org.apache.lucene.search.highlight包的Highlighter.java里的方法:

public final TextFragment[] getBestTextFragments(

    TokenStream tokenStream,

    String text,

    boolean mergeContiguousFragments,

    int maxNumFragments)

会对text文本(document中一个field的文本),逐个token,逐个token 的判断是否应该高亮。而其中关键语句

startOffset = tokenGroup.matchStartOffset;

endOffset = tokenGroup.matchEndOffset;

tokenText = text.substring(startOffset, endOffset);

String markedUpText=formatter.highlightTerm(encoder.encodeText(tokenText), tokenGroup);

formatter.highlightTerm这个函数会对解析的tokenText,判断其是否应该高亮,返回给markedUpText。判断的依据就是tokenGroup里保存的一个score,只有当这个score大于0时,才返回高亮文本,而返回的高亮文本会通过预设的pre tag和post tag包起来,也就是默认的<em>和</em>标签。


08/27/2015

今天调试代码,发现的奇怪问题是对于某些中文词,tokenGroup里保存的startOffset和endOffset值居然是一样的,但词的长度却记录下了。造成高亮的代码忽略了这些词,真是非常奇怪。比如对于文本“早在上世纪40年代第一台计算机诞生”,我逐个跟踪token解析过程,发现它完全跳过了“第一台计算机”这几句。个人怀疑是我使用的中文分词包有问题。


© 著作权归作者所有

共有 人打赏支持
go2school
粉丝 10
博文 34
码字总数 14674
作品 0
技术主管
Solr初探(5)——Solrj的基本使用

导入依赖 导入Solr源码包文件夹下的以及文件夹下的所有包到项目中。除此之外,还要加上包和测试包。 添加/更新数据 Solrj的使用十分简单,下面是一个添加数据的例子: (1)BaseURL就是Solr的...

yuanlaijike
04/10
0
0
Solr学习总结(五)SolrNet的基本用法及CURD

  上一篇已经讲到了Solr 查询的相关的参数。这里在讲讲C#是如何通过客户端请求和接受solr服务器的数据, 这里推荐使用SolrNet,主要是:SolrNet使用非常方便,而且用户众多,一直都在更新,...

章为忠
2015/12/24
0
0
Apache solr使用

一、Solr介绍 最近在一个项目中做了一个全文检索的功能,刚开始本来打算用Apache Lucene去实现,毕竟之前对Lucene有一点了解,但是在网上看技术类文章时看见了别人介绍Apache Solr,感觉挺好...

引鸩怼孑
2015/09/10
91
0
有关solr的一些不明白的地方,希望得到大家的解答

最近在学习solr的使用,但是有一些不理解的地方希望在这方面了解的人能给我一些解答,非常的感谢。 第一:solr的高亮,在使用solrJ时,resp.getHighlighting().get(id).get("content")进行高...

BravoZu
2012/07/31
239
0
Solr高亮与Field权重

Solr高亮 原理 做搜索时,高亮是很常见的需求,那么Solr肯定也为高亮提供了支持。先解释下Solr高亮的原理,在我们设置了需要高亮显示的Field之后,查询得到的返回结果会多出来下面的内容: ...

Zero零_度
2015/08/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Go语言_通神之路(2)

1、包 每个Go程序都是由包构成,从main包开始运行,就是我上一篇讲到的,都是从main函数开始执行,但是必须在main包下面! package mainimport ( "fmt" "math/rand")func ...

木九天
昨天
2
0
51.php-fpm的pool 慢日志 open_basedir 进程管理

12.21 php-fpm的pool 12.22 php-fpm慢执行日志(测试时报错) 12.23 open_basedir 12.24 php-fpm进程管理 12.21 php-fpm的pool: php-fpm里的pool也叫池子,咱们之前加入过www的配置,这个w...

王鑫linux
昨天
0
0
java内存模型概述

1、Java虚拟机运行时数据分区图 程序计数器:线程私有,是一块较小的内存空间,它是当前线程所执行的字节码文件的行号指示器 java虚拟机栈:线程私有,其生命周期与线程相同,这也就是我们平...

京一
昨天
0
0
shell学习之test语法

因为if-then语句不能测试退出状态码之外的条件,所以提供了test, 如果test命令中列出的条件成立,test命令就会退出并返回退出状态码0;如果条件不成立,test命令就会退出并返回非零的退出状态...

woshixin
昨天
0
0
openJDK之如何下载各个版本的openJDK源码

如果我们需要阅读openJDK的源码,那么需要下载,那么该去哪下载呢? 现在JDK已经发展到版本10了,11已经处于计划中,如果需要特定版本的openJDK,它们的下载链接在哪呢? 1.openJDK的项目 链接...

汉斯-冯-拉特
昨天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部