文档章节

solr检索

west_coast
 west_coast
发布于 2017/08/08 15:22
字数 851
阅读 2
收藏 0
点赞 0
评论 0

前言

      Solr/Lucene是一个全文检索引擎,全文引擎和SQL引擎所不同的是强调部分相关度高的内容返回,而不是所有内容返回,
所以部分内容包含在索引库中却无法命中是正常现象。
      多数情况下我们建议优化分词器或者引擎其它部分达到预期检索效果。

  1. 分词器调节

    按照如下步骤进入分词器调试界面

1、选择collection

2、选择analysis菜单

3、在索引框中输入要索引的文档

4、在检索框中输入要检索的词语

5、选择需要调试的字段,这里假设要将内容索引到title字段,并且在该字段上检索

6、点击分析按钮

7、在展示出来的原文分词结果(左侧)和关键词分词结果(右侧)中对比最下面一行,若右侧分词结果的所有词在左侧都能找到,那么在AND关系的检索时能够匹配;若部分能够找到,那么在OR关系的检索中能够匹配;若完全找不到,那么无法匹配。

 

  1. 检索调节

    1. 准备数据

索引一条记录,id=1,title=中华人民共和国来做调试

  1. 直接检索无法出结果问题

直接检索中华人民共和国

 

 

从上图看(图可放大),最终检索结果被解析成了”+text:中 +text:华 +text:人 +text:民 +text:共 +text:和 +text:国”,因为我们在q的输入框中没有输入检索字段,所以solr会检索默认字段”text”,而该字段不包含我们需要的信息,所以检索无结果。

 

输入正确的字段title后,可以成功检索出来

 

 

  1. 部分匹配无法出结果问题

原文中华人民共和国分词后:中华、人民、共和国

搜索词中华解放军分词后:中华、解放军

部分匹配,我们也希望检索出来

 

从上图看(图可放大),最终检索结果被解析成了"+title:中 +title:华 +title:解放 +title:军",加号(+)标识逻辑与关系,相当于检索"title:中 AND title:华 AND title:解放 AND title:军",因此无法检索出来

 

 

 

修改默认逻辑关系(q.op=OR)为OR后,分此后的检索式加号没了,是逻辑或关系,因此能够成功检索出来。这里OR一定要大写。

 

这个默认检索关系可以通过修改schema.xml的defaultOperator进行配置
<solrQueryParser defaultOperator=”OR”/>

 

  1. 多关键字检索无法出结果问题

有时候用户会用空格输入多个关键字进行检索,如title:中华 人民 共和国

通过开启debugQuery参数,我们看到,最终检索结果被解析成了

 

+(+title:中 +title:华) +(+text:人 +text:民) +(+text:共 +text:和 +text:国)

 

 

中华是在title上检索的,后面的词都到text字段检索了

通过指定默认字段df为title,可以修正最终检索式,从上图看,修正后结果可以正常检索返回。

 

其它

    以上是一些常见数据召回问题。

    检索调优是搜索引擎使用中最复杂的过程,需要在长期实践中积累经验,同时需要了解数据情况,业务特点等多方面根据情况进行调整。

© 著作权归作者所有

共有 人打赏支持
west_coast
粉丝 0
博文 45
码字总数 12036
作品 0
济南
程序员
Solr 查询语法

由于 Solr 内部实现查询语句的语法语义分析使用比较成熟的工具 Javacc,所以 Solr 支持的查询语法还是很丰富的,Solr 查询语法可以总结如下: Solr 查询无论是 Solrj 操作还是直接发送请求给...

clebeg ⋅ 2013/09/20 ⋅ 0

基于Solr搜索服务器的全文检索

1:何为全文检索 全文检索是一种将文件中所有文本与检索关键词匹配的文字资料检索方法,比如我们将一本书的作者、出版日期、出版社、章节、章节内容都存于数据库中,那么我们输入任何一个词,...

旗舰 ⋅ 2013/12/20 ⋅ 0

请教个关于 solr 索引构建的方案的问题,怎么操作比较适合正式环境?

最近搭建一个全文检索平台。最初考虑只采用lucene,然后自己写索引构建程序、检索框架等,类似osc @红薯 的方案,以前也做过比较熟悉。但有两个问题,1.比较复杂,工作量和维护量都比较大。2...

从前 ⋅ 2013/03/27 ⋅ 4

Solr使用函数排序

电子商务搜索引擎http://demo.rivues.com:195中有一个功能是按照销售量排序,销售量的数据是实时统计的,检索的时候有一个功能是按照销售量来排序,这个功能用到了Solr的函数排序(Sort By F...

R3商业智能 ⋅ 2011/04/05 ⋅ 2

[ solr入门 ] - 利用solrJ进行检索

[ solr入门 ] - 利用solrJ进行检索 solrJ可以看成是solr的java版客户端,提供基本的索引维护、检索等功能。 solrJ和solr服务端有两种“沟通”方式: 第一,利用http进行通信。 第二,直接访问...

飞翼 ⋅ 2016/12/13 ⋅ 0

Solr查询参数

solr常用查询参数 q:查询关键词。支持 AND,OR ,,?。支持多字段查询,模糊匹配。 fq:filter query,过虑查询。 sort:排序规则。默认按score排序。 start, rows:分页参数。start:开始的位...

zcl111 ⋅ 2016/01/30 ⋅ 0

Solr 开发经验

1、开篇语 2、概述 3、渊源 4、初识Solr 5、Solr的安装 6、Solr分词顺序 7、Solr中文应用的一个实例 8、Solr的检索运算符 [开篇语]按照惯例应该写一篇技术文章了,这次结合Lucene/Solr来分享...

小样 ⋅ 2013/02/22 ⋅ 0

solr学习-分词

最近在做一个大数据的项目。需要在前端对用户的上网日志进行检索。由于开发时间短暂,项目急需演示等多种原因,最后决定使用solr作为检索引擎。将用户的上网日志导入solr中进行检索。 现在通...

jeff_han ⋅ 2014/03/04 ⋅ 0

solr与关系型数据库整合

oracle数据库里记录越来越多,模糊查询越来越慢,所以想用solr来做全文检索,比如要检索单据,但是单据和好几张表关联,用solr无法实现关系型数据库的表连接。 我们现在想到的做法是将要检索...

一个人混 ⋅ 2016/04/16 ⋅ 1

Solr简单介绍

简介 Solr是一个高性能,采用Java5开发,Solr基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提...

邵鸿鑫 ⋅ 2016/06/29 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

JPA入门,配置文件的设置

<?xml version="1.0" encoding="UTF-8"?> <persistence xmlns="http://java.sun.com/xml/ns/persistence" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http......

码农屌丝 ⋅ 7分钟前 ⋅ 0

Java基础——面向对象和构造器

声明:本栏目所使用的素材都是凯哥学堂VIP学员所写,学员有权匿名,对文章有最终解释权;凯哥学堂旨在促进VIP学员互相学习的基础上公开笔记。 静态成员介绍 为什么要有静态成员?静态成员用来...

凯哥学堂 ⋅ 9分钟前 ⋅ 0

vmware中Centos 7 linux的LVM磁盘扩容

系统是RHEL7(centos7差不多一样) 关闭系统,在vmware、设置、硬盘、扩展、输入数字大于当前系统内存、点击扩展。 开机再查看磁盘信息 fdisk -l 注意:可以看出sda磁盘增加了,但是根目录还...

gugudu ⋅ 19分钟前 ⋅ 0

JAVA线程sleep和wait方法区别

昨天面试,突然被问到sleep 和 wait的区别,一下子有点蒙,在这里记一下,以示警戒。 首先说sleep,sleep就是正在执行的线程主动让出cpu,cpu去执行其他线程,在sleep指定的时间过去后,cpu...

徐玉强 ⋅ 21分钟前 ⋅ 0

vuex学习--模块

随着项目复杂性增加,共享状态也越来越多。需要对转态操作进行分组,分组后在进行分组编写。学习一下module:状态管理器的模块组操作。 首先是声明: const moduleA={ state,mutations,g...

大美琴 ⋅ 23分钟前 ⋅ 0

Selenium 简单入门

安装 pip install selenium 驱动下载 https://chromedriver.storage.googleapis.com/index.html 下载最新的驱动,放入path中,可以放入Python的scripts目录下,也可以放入Chrome安装目录,并...

阿豪boy ⋅ 25分钟前 ⋅ 0

292. Nim Game - LeetCode

Question 292. Nim Game Solution 思路:试着列举一下,就能发现一个n只要不是4的倍数,就能赢。 n 是否能赢1 true2 true3 true4 false 不论删除几,对方都能一把赢5 t...

yysue ⋅ 55分钟前 ⋅ 0

6.5 zip压缩工具 6.6 tar打包 6.7 打包并压缩

zip压缩工具 zip命令可以压缩目录和文件,-r 压缩目录。 zip使用方法 zip 1.txt.zip 1.txt //压缩文件 zip -r 123.zip 123/ //压缩目录 unzip 1.txt.zip //解压 unzip 123.zip -d /root/456...

Linux_老吴 ⋅ 今天 ⋅ 0

react-loadable使用跳坑

官方给react-loadable的定义是: A higher order component for loading components with dynamic imports. 动态路由示例 withLoadable.js import React from 'react'import Loadable fro......

pengqinmm ⋅ 今天 ⋅ 0

记录工作中遇到的坑

1、ios safari浏览器向下滚动会触发window resize事件

端木遗风 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部