文档章节

为什么检索条件多了一个字就搜不出文章了---易览资讯

west_coast
 west_coast
发布于 2017/08/09 11:48
字数 833
阅读 24
收藏 0

一。问题

   在易览资讯中输入关键字有时候检索不出文章,但是文章标题和内容中确实有这几个字。

二。调查

  先做一个测试:

  1.在solr中检索条件输入 title:信息化扶贫,注意这里没有引号。

  2.打开调试模式

  3.在图中(可放大)第3个步骤看到,solr将检索条件分词,solr的中文分词工具是IKAnalyzer;

最终检索结果被解析成了"+title:信息化 +title:信息 +title:化 +title:扶贫",加号(+)标识逻辑与关系,相当于检索"title:信息化 AND title:信息 AND title:化 AND title:扶贫"。

意思即为:如果一篇文章的标题分词中包括信息化、信息、化、扶贫这几个词,注意是全部包括,则该篇文章可以被检索出来。而不是我们通常理解的如果一篇文章标题中有这几个字,solr就必须搜出来。

4.检索结果

  结果有9条。

     

三。易览资讯的检索

  还是使用“信息化扶贫”来举例。

 1. 易览资讯在后台使用solrj来操作solr.

  2.在检索的相关代码中使用了引号将查询条件包裹起来。例如:title:"信息化扶贫" ||APPC:"信息化扶贫"。加入引号意味着检索条件是一个紧密连接的整体,中间不能有隔断。

3.检索

检索结果有6条。

剔除了“工业和信息化部举行庆祝中国共产党成立96周年大会暨扶贫工作先进事迹报告“ 这样的结构。

从图中可以看到solr依然将检索条件分词,只不过这些分词全部连在一起。

 

  4.检索条件变成“信息化扶贫示”

 1)预期效果:应该会把“山亭区冯卯镇信息化扶贫示范镇建设项目招标公告” 这些类似的文章检索出来

  2)但是,检索结果:0条。

  3)从图中可看出solr将检索条件分词为:信息化、信息、化、扶贫、示。

5.为什么检索条件多了一个字就搜不到文章了

1)Solr/Lucene是一个全文检索引擎,全文引擎和SQL引擎所不同的是强调部分相关度高的内容返回,而不是所有内容返回,所以部分内容包含在索引库中却无法命中是正常现象。

2)真正的原因:分词

  •    使用solr提供的分词器进行调试
  •    如图,在索引框中输入要索引的文档:山亭区冯卯镇信息化扶贫示范镇建设项目招标公告
  •     在检索框中输入要检索的词语:信息化扶贫示
  •     点击分析按钮
  •     原文档和检索条件的分词分为上下两排排列。
  •   若下排分词结果的所有词在上排都能找到,那么在AND关系的检索时能够匹配。在本例中,检索条件解析出来的5个分词中有4个:信息化、信息、化、扶贫在上排能找到,但是最后一个分词“示“在上排找不到,所以是检索不出文章的。

 

 

    

 

 

 

© 著作权归作者所有

共有 人打赏支持
west_coast
粉丝 0
博文 63
码字总数 17125
作品 0
济南
程序员
如何搭建一个站内搜索引擎(一) 第1章 写在最前

搜索引擎,对很多人来说,熟悉又陌生。熟悉,是因为每个人每天都能接触到,比如百度、google、淘宝内部搜索;陌生,是因为鲜有人了解他的原理。 因为工作需要,有幸参与负责了一个站内搜索的...

jungleliu0923
2014/02/10
0
6
PostgreSQL的模糊查询问题,不是正常的单词查不出来

用一下的语句进行模糊查询时,速度很慢。 select * from myTable where myCol like '%adghj%' 在网上搜了半天,唯一有可能有帮助的好像就是全文检索了。 可是,试了下全文检索,好像只能支持...

wsg
2012/04/05
1K
3
Lucene4.3进阶开发之礼敬如来(十三)

评分功能,在全文检索中也算是一个非常重要的模块,因为评分的好坏,直接决定着用户搜索匹配的相关性,试想一下假如用户输入了一个搜索词,搜索引擎返回了一大堆不相关的信息,或者没有层次性...

heroShane
2014/02/21
0
0
追求代码质量 —— 闲谈团队的代码质量

定义代码质量 首先当你开始意识到项目里代码质量差的时候,恭喜你已经有了代码审美。这是推进编程水平的重要的一步。很显然,如果你不知道什么是差的代码,你就写不出好的代码。写不出好的代...

局长
2017/09/18
1K
7
闲谈团队的代码质量

定义代码质量 首先当你开始意识到项目里代码质量差的时候,恭喜你已经有了代码审美。这是推进编程水平的重要的一步。很显然,如果你不知道什么是差的代码,你就写不出好的代码。写不出好的代...

没故事的卓同学
2017/09/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

《Netkiller Java 手札》· 二进制文件操作大全

本文节选自《Netkiller Java 手札》 Netkiller Java 手札 Mr. Neo Chan, 陈景峯(BG7NYT) 中国广东省深圳市望海路半岛城邦三期 518067 +86 13113668890 <netkiller@msn.com> $Id: book.xml 6......

netkiller-
23分钟前
1
0
Fiddler Debugger post请求

常用的两种: 第一种默认的 对应URL为www 的要用请求头为:Content-Type: application/x-www-form-urlencoded 请求参数为 :param1=1234¶m2=12345 注:有些接口是指定用这种的第二方式并不...

轻量级赤影
30分钟前
2
0
如何搭建母婴亲子类知识社区

近期社交领域融资动作频繁,海尔高管、海尔医疗有限公司总裁管礼庆创办的母婴知识分享社区平台Alwayslove于上月获得700万天使轮融资。 Alwayslove是一个母婴知识分享社区平台,采用UGC模式,...

ThinkSNS账号
32分钟前
1
0
Android 自定义构建类型 BuildType

最近接触到自定义构建类型 BuildType,发现这一块有些地方稍不注意的话会被绕进去浪费点时间,既然我这边已经花费时间了,如果正好你也需要接触到 BuildType,也许接下来分享的 tips 可能会帮...

猴亮屏
33分钟前
1
0
美团点评基于 Flink 的实时数仓建设实践

引言 近些年,企业对数据服务实时化服务的需求日益增多。本文整理了常见实时数据组件的性能特点和适用场景,介绍了美团如何通过 Flink 引擎构建实时数据仓库,从而提供高效、稳健的实时数据服...

美团技术团队
36分钟前
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部