文档章节

为什么检索条件多了一个字就搜不出文章了---易览资讯

west_coast
 west_coast
发布于 2017/08/09 11:48
字数 833
阅读 114
收藏 0

#程序员薪资揭榜#你做程序员几年了?月薪多少?发量还在么?>>>

一。问题

   在易览资讯中输入关键字有时候检索不出文章,但是文章标题和内容中确实有这几个字。

二。调查

  先做一个测试:

  1.在solr中检索条件输入 title:信息化扶贫,注意这里没有引号。

  2.打开调试模式

  3.在图中(可放大)第3个步骤看到,solr将检索条件分词,solr的中文分词工具是IKAnalyzer;

最终检索结果被解析成了"+title:信息化 +title:信息 +title:化 +title:扶贫",加号(+)标识逻辑与关系,相当于检索"title:信息化 AND title:信息 AND title:化 AND title:扶贫"。

意思即为:如果一篇文章的标题分词中包括信息化、信息、化、扶贫这几个词,注意是全部包括,则该篇文章可以被检索出来。而不是我们通常理解的如果一篇文章标题中有这几个字,solr就必须搜出来。

4.检索结果

  结果有9条。

     

三。易览资讯的检索

  还是使用“信息化扶贫”来举例。

 1. 易览资讯在后台使用solrj来操作solr.

  2.在检索的相关代码中使用了引号将查询条件包裹起来。例如:title:"信息化扶贫" ||APPC:"信息化扶贫"。加入引号意味着检索条件是一个紧密连接的整体,中间不能有隔断。

3.检索

检索结果有6条。

剔除了“工业和信息化部举行庆祝中国共产党成立96周年大会暨扶贫工作先进事迹报告“ 这样的结构。

从图中可以看到solr依然将检索条件分词,只不过这些分词全部连在一起。

 

  4.检索条件变成“信息化扶贫示”

 1)预期效果:应该会把“山亭区冯卯镇信息化扶贫示范镇建设项目招标公告” 这些类似的文章检索出来

  2)但是,检索结果:0条。

  3)从图中可看出solr将检索条件分词为:信息化、信息、化、扶贫、示。

5.为什么检索条件多了一个字就搜不到文章了

1)Solr/Lucene是一个全文检索引擎,全文引擎和SQL引擎所不同的是强调部分相关度高的内容返回,而不是所有内容返回,所以部分内容包含在索引库中却无法命中是正常现象。

2)真正的原因:分词

  •    使用solr提供的分词器进行调试
  •    如图,在索引框中输入要索引的文档:山亭区冯卯镇信息化扶贫示范镇建设项目招标公告
  •     在检索框中输入要检索的词语:信息化扶贫示
  •     点击分析按钮
  •     原文档和检索条件的分词分为上下两排排列。
  •   若下排分词结果的所有词在上排都能找到,那么在AND关系的检索时能够匹配。在本例中,检索条件解析出来的5个分词中有4个:信息化、信息、化、扶贫在上排能找到,但是最后一个分词“示“在上排找不到,所以是检索不出文章的。

 

 

    

 

 

 

© 著作权归作者所有

上一篇: 在线转码
west_coast
粉丝 5
博文 138
码字总数 40826
作品 0
济南
程序员
私信 提问
加载中

评论(0)

如何搭建一个站内搜索引擎(一) 第1章 写在最前

搜索引擎,对很多人来说,熟悉又陌生。熟悉,是因为每个人每天都能接触到,比如百度、google、淘宝内部搜索;陌生,是因为鲜有人了解他的原理。 因为工作需要,有幸参与负责了一个站内搜索的...

jungleliu0923
2014/02/10
1K
6
十二居-AR导览公司,美景即刻站起来!

关键词:AR导览|AR博物馆导览公司|AR技术公司 嗅觉敏捷的互联网人都嗅到了这项技术的巨大潜力,各大互联网公司纷纷转投AR领域。大家断言增强现实技术一定会像手机、电脑一样成为现代人生活不...

zmsn1990
04/01
0
0
学习Lucene、solr之前应当了解的一些术语

一些简单易理解术语,例如:词条搜索、语义信息、搜索引擎 搜索引擎分类:全文搜索(百度、谷歌)、目录搜索、元搜索、垂直搜索 元搜索例子:360综合搜索、搜魅网(someta 集合了百度、googl...

osc_oajhjcoo
2018/01/03
2
0
真的有人想让腾讯微博代替新浪微博吗?

前几天差评君在刷微博的时候发现了这么个奇葩话题:对,你没看错,在新浪微博超话列表里,居然混进了一个名为“腾讯微博 ”的超话。这就像微信钱包里多了个“ 支付宝支付 ”,像淘宝里多了个...

差评
03/31
0
0
华为员工年薪 200 万!真相让人心酸!

五一假期最后一天,来点刺激的! 最近,有华为员工在匿名社交网站上,曝光自己税前年收入91万,再加上股票TUP(Time Unit Plan,直译为“时间单位计划”,即奖励期权计划)和工资,年收入突破...

CSDN资讯
2019/05/04
0
0

没有更多内容

加载失败,请刷新页面

加载更多

给大家讲一个笑话:技术是无国界的!

在我接触互联网的最初几年,总会在技术论坛上看到有人宣称:技术是没有国界的,我深信不疑! 做程序员之后,我慢慢接触到了很多很多的开源软件,我真的无比的感慨:开源是人类最伟大的发明。...

osc_hzf6peqc
19分钟前
13
0
医学多模态图像分割小结 - 知乎

在医学图象中,多模态数据因成像机理不同而能从多种层面提供信息。多模态图像分割包含重点问题为如何融合(fusion)不同模态间信息,本文主要记录笔者最近所读,欢迎批评指正补充 1. A review:...

osc_htns3spg
20分钟前
24
0
Curve-GCN:图卷积网络用于活动轮廓演变 - 知乎

CNN做分割需要处理数据量很大的grid数据,需要对所有点的label进行预测,而且传统CNN并不会结合点与点之间的联系。 使用图结构建模分割轮廓或分割曲面,然后采用GCN,仿照传统的deformable ...

osc_q7wo0k6s
21分钟前
15
0
录好的音频在哪个文件夹?迅捷录音软件还能这么查找!

录好的音频在哪个文件夹?在录制之前经常忘记调整保存位置,等到录完音频才发现,自己竟然找不到音频文件了。这种情况在录音的时候并不少见,软件的音频文件会默认保存在安装目录下,找起来确...

dawda
22分钟前
22
0
docker: Error response from daemon: Conflict. The container name "/xx" is already in use

使用docker 出现Error response from daemon: Conflict. The container name “***” is already in use 解决方法: (1)给容器换一个名字, 比如说 docker run -it --name=mycentos2 centos......

osc_h7q38oso
22分钟前
23
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部