文档章节

为什么检索条件多了一个字就搜不出文章了---易览资讯

west_coast
 west_coast
发布于 2017/08/09 11:48
字数 833
阅读 26
收藏 0

一。问题

   在易览资讯中输入关键字有时候检索不出文章,但是文章标题和内容中确实有这几个字。

二。调查

  先做一个测试:

  1.在solr中检索条件输入 title:信息化扶贫,注意这里没有引号。

  2.打开调试模式

  3.在图中(可放大)第3个步骤看到,solr将检索条件分词,solr的中文分词工具是IKAnalyzer;

最终检索结果被解析成了"+title:信息化 +title:信息 +title:化 +title:扶贫",加号(+)标识逻辑与关系,相当于检索"title:信息化 AND title:信息 AND title:化 AND title:扶贫"。

意思即为:如果一篇文章的标题分词中包括信息化、信息、化、扶贫这几个词,注意是全部包括,则该篇文章可以被检索出来。而不是我们通常理解的如果一篇文章标题中有这几个字,solr就必须搜出来。

4.检索结果

  结果有9条。

     

三。易览资讯的检索

  还是使用“信息化扶贫”来举例。

 1. 易览资讯在后台使用solrj来操作solr.

  2.在检索的相关代码中使用了引号将查询条件包裹起来。例如:title:"信息化扶贫" ||APPC:"信息化扶贫"。加入引号意味着检索条件是一个紧密连接的整体,中间不能有隔断。

3.检索

检索结果有6条。

剔除了“工业和信息化部举行庆祝中国共产党成立96周年大会暨扶贫工作先进事迹报告“ 这样的结构。

从图中可以看到solr依然将检索条件分词,只不过这些分词全部连在一起。

 

  4.检索条件变成“信息化扶贫示”

 1)预期效果:应该会把“山亭区冯卯镇信息化扶贫示范镇建设项目招标公告” 这些类似的文章检索出来

  2)但是,检索结果:0条。

  3)从图中可看出solr将检索条件分词为:信息化、信息、化、扶贫、示。

5.为什么检索条件多了一个字就搜不到文章了

1)Solr/Lucene是一个全文检索引擎,全文引擎和SQL引擎所不同的是强调部分相关度高的内容返回,而不是所有内容返回,所以部分内容包含在索引库中却无法命中是正常现象。

2)真正的原因:分词

  •    使用solr提供的分词器进行调试
  •    如图,在索引框中输入要索引的文档:山亭区冯卯镇信息化扶贫示范镇建设项目招标公告
  •     在检索框中输入要检索的词语:信息化扶贫示
  •     点击分析按钮
  •     原文档和检索条件的分词分为上下两排排列。
  •   若下排分词结果的所有词在上排都能找到,那么在AND关系的检索时能够匹配。在本例中,检索条件解析出来的5个分词中有4个:信息化、信息、化、扶贫在上排能找到,但是最后一个分词“示“在上排找不到,所以是检索不出文章的。

 

 

    

 

 

 

© 著作权归作者所有

共有 人打赏支持
上一篇: 在线转码
west_coast
粉丝 0
博文 71
码字总数 19612
作品 0
济南
程序员
私信 提问
如何搭建一个站内搜索引擎(一) 第1章 写在最前

搜索引擎,对很多人来说,熟悉又陌生。熟悉,是因为每个人每天都能接触到,比如百度、google、淘宝内部搜索;陌生,是因为鲜有人了解他的原理。 因为工作需要,有幸参与负责了一个站内搜索的...

jungleliu0923
2014/02/10
0
6
PostgreSQL的模糊查询问题,不是正常的单词查不出来

用一下的语句进行模糊查询时,速度很慢。 select * from myTable where myCol like '%adghj%' 在网上搜了半天,唯一有可能有帮助的好像就是全文检索了。 可是,试了下全文检索,好像只能支持...

wsg
2012/04/05
1K
3
Lucene4.3进阶开发之礼敬如来(十三)

评分功能,在全文检索中也算是一个非常重要的模块,因为评分的好坏,直接决定着用户搜索匹配的相关性,试想一下假如用户输入了一个搜索词,搜索引擎返回了一大堆不相关的信息,或者没有层次性...

heroShane
2014/02/21
0
0
MySQL必知必会(2):数据检索(SELECT)

本文介绍Mysql开发中使用最频繁的功能,SELECT数据检索 简介 检索数据是从数据库中使用特定语句获取页面需要的数据。每天你上网浏览的网页,绝大部分数据都是从数据库中检索出来,所以它也是...

星空幻颖
2017/01/09
0
0
牛!能临摹的写字机器人,甭管整齐或潦草,都能一模一样的给你写出来!

智能机器人提笔写字,惊呆美女记者! 近日,在第十二届河南投洽会上,一款智能机器人吸引了美女记者的注意。你写字他临摹,甭管整齐或潦草,这款机器人都弄的一模一样给你写出来。 记者也体验...

智搜资讯
06/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Docker默认的网络模式

Docker默认的网络模式:Bridge模式 该模式会为每个容器分配Network Namespace子系统,会自动给每个容器虚拟出自己的网卡、IP、网关、路由等信息,无需手工添加。 5分钟玩转 Docker Bridge...

吴伟祥
13分钟前
2
0
Docker方式部署Github监控系统Hawkeye

0.系统环境 CentOS Linux release 7.6.1810 (Core)|Python 2.7.5|2018年10月12日版Hawkeye step1:docker安装 见:https://my.oschina.net/guiguketang/blog/1843594 step2:安装mongodb #vim ......

硅谷课堂
21分钟前
1
0
混合模型---logistic模型的混合

专家混合

中国龙-扬科
24分钟前
3
0
自定义参数校验注解 (实现ConstraintValidator方法)

Hibernate Validator常用注解(图网上找的) 2.自定义校验器 a.注解类 @Target({FIELD, METHOD, PARAMETER, ANNOTATION_TYPE})@Retention(RUNTIME)@Documented@Constraint(validatedB......

INSISTQIAO
27分钟前
1
0
Integer 实现

Integer 封装类型,参数传递传的是值,不是引用 内带缓存,-128 到127 -128 到127 直接数值 IntegerCache 如果不在这个范围,才会new Integer () public static Integer valueOf(int ...

Java搬砖工程师
28分钟前
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部