文档章节

搜索解决方案 - ElasticSearch/Solr/Lucene

夙梦o
 夙梦o
发布于 07/16 22:01
字数 2582
阅读 130
收藏 0

行业解决方案、产品招募中!想赚钱就来传!>>>

搜索解决方案 - ElasticSearch/Solr/Lucene

1. 什么是 ElasticSearch

  • ElasticSearch 是一个基于 Lucene 的搜素服务器
  • 是一个分布式、高扩展、实时的搜素与数据分析引擎
  • 基于 RESTful web 接口
  • ElasticSearch 是用 Java 语言开放,并作为 Apache 许可条款下的开放源码发布,是一种流行的企业级搜索引擎

2. ElasticSearch 和 MySQL 的对比

  • MySQL有事务性,而 ElasticSearch 没有事务性,所以删了数据后就无法恢复
  • ElasticSearch 没有物理外键这个特性,如果你的数据强一致性要求比较高,还是建议慎用
  • MySQL 负责存储数据,ElasticSearch 负责搜索数据

3. ElasticSearch 的核心概念

  • 映射(index): ElasticSearch 存储数据的地方,可以理解为关系型数据库中数据库的概念
  • 映射(mapping):mapping 定义每个字段的类型
  • 文档(document):ElasticSearch 中的最小数据单元,常以 json 格式显示。一个 document 相当于关系型数据库中的一行数据
  • 倒排索引:一个倒排索引由文档中所有不重复词的列表构成,对于其中每个词,对应一个包含它的文档ID列表
  • 类型(type):一种类型就是一类表

4. term 和 match 的区别

  • term 词条不会分析查询条件,只有当词条和查询字符串完全匹配才会匹配搜索
  • match 全文查询会分析查询条件,先将查询条件进行分词,然后查询,求并集

5. 什么是 Solr

Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。

6. 什么是 Lucene

Lucene是apache下的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。

7. ElasticSearch 的优缺点

优点:

  • Elasticsearch是分布式的。不需要其他组件,分发是实时的,被叫做”Push replication”。
  • Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。
  • 处理多租户(multitenancy)不需要特殊配置,而Solr则需要更多的高级设置。
  • Elasticsearch 采用 Gateway 的概念,使得完备份更加简单。
  • 各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作。

缺点:

  • 只有一名开发者(当前Elasticsearch GitHub组织已经不只如此,已经有了相当活跃的维护者)
  • 还不够自动(不适合当前新的Index Warmup API)

8. Solr的优缺点

优点:

  • Solr有一个更大、更成熟的用户、开发和贡献者社区。
  • 支持添加多种格式的索引,如:HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。
  • Solr比较成熟、稳定。
  • 不考虑建索引的同时进行搜索,速度更快。

缺点:

  • 建立索引时,搜索效率下降,实时索引搜索效率不高。

9. ElasticSearch 和 Solr 的比较

  • 二者安装都很简单;
  • Solr 利用 Zookeeper 进行分布式管理,而 Elasticsearch 自身带有分布式协调管理功能;
  • Solr 支持更多格式的数据,而 Elasticsearch 仅支持json文件格式;
  • Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高级功能多由第三方插件提供;
  • Solr 在传统的搜索应用中表现好于 Elasticsearch,但在处理实时搜索应用时效率明显低于 Elasticsearch。
  • Solr 是传统搜索应用的有力解决方案,但 Elasticsearch 更适用于新兴的实时搜索应用。

面试题

1. solr如何实现搜索的

倒排索引,先抽取文档中词,并建立词与文档id的映射关系,然后查询的时候会根据词去查询文档id,并查询出文档。

2. Solr 过滤器

Solr的过滤器对接收到的标记流(TokenStream )做额外的处理

过滤查询,在查询时设置

3. Solr 原理

Solr是基于Lucene开发的全文检索服务器,而Lucene就是一套实现了全文检索的api,其本质就是一个全文检索的过程。全文检索就是把原始文档根据一定的规则拆分成若干个关键词,然后根据关键词创建索引,当查询时先查询索引找到对应的关键词,并根据关键词找到对应的文档,也就是查询结果,最终把查询结果展示给用户的过程

4. Solr 基于什么

基于lucene搜索库的一个搜索引擎框架,lucene是一个开放源码的全文检索引擎工具包

5. Solr 怎么设置搜索结果排名靠前

设置文档中域的boost值,值越高相关性越高,排名就靠前

6. IK 分词器原理

本质上是词典分词,在内存中初始化一个词典,然后在分词过程中逐个读取字符,和字典中的字符相匹配,把文档中的所有词语拆分出来的过程

7. Solr 的索引查询为什么比数据库要快

Solr使用的是Lucene API实现的全文检索。全文检索本质上是查询的索引。而数据库中并不是所有的字段都建立的索引,更何况如果使用like查询时很大的可能是不使用索引,所以使用solr查询时要比查数据库快

8. Solr 索引库个别数据索引丢失怎么怎么办

首先Solr是不会丢失个别数据的。如果索引库中缺少数据,那就向索引库中添加

9. Lucene 索引优化

直接使用Lucene实现全文检索已经是过时的方案,推荐使用solr。Solr已经提供了完整的全文检索解决方案

10. 多张表的数据导入 Solr(解决id冲突)

在schema.xml中添加uuid,然后solrconfig那边修改update的部分,改为使用uuid生成

11. Solr 如何分词,新增词和禁用词如果解决

schema.xml文件中配置一个IK分词器,然后域指定分词器为IK

新增词添加到词典配置文件中ext.dic,禁用词添加到禁用词典配置文件中stopword.dic,然后在schema.xml文件中配置禁用词典:<filter class="solr.StopFilterFactory" ignore="true" words="/禁止词文件目录"/>

12. Solr 实现多条件组合查询

创建多个查询对象,指定他们的组合关系,Occur.MUST(必须满足and),Occur.SHOULD(应该满足or),Occur.MUST_NOT(必须不满足not)

13. ElasticSearch 知识点

  • ElasticSearch(简称ES)是一个分布式、Restful的搜索及分析服务器,设计用于分布式计算;能够达到实时搜索,稳定,可靠,快速。和Apache Solr一样,它也是基于Lucence的索引服务器,而ElasticSearch对比Solr的优点在于
  • 轻量级:安装启动方便,下载文件之后一条命令就可以启动
  • Schema free:可以向服务器提交任意结构的JSON对象,Solr中使用schema.xml指定了索引结构
  • 多索引文件支持:使用不同的index参数就能创建另一个索引文件,Solr中需要另行配置。
  • 分布式:Solr Cloud的配置比较复杂
  • 倒排索引是实现“单词-文档矩阵”的一种具体存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”

14. ElasticSearch 调优

  • 使用bulk API
  • 初次索引的时候,把 replica 设置为 0
  • 增大 threadpool.index.queue_size
  • 增大 indices.memory.index_buffer_size
  • 增大 index.translog.flush_threshold_ops
  • 增大 index.translog.sync_interval
  • 增大 index.engine.robin.refresh_interval

15 Lucene 内部结构是什么

  • 索引(Index): 在Lucene中一个索引是放在一个文件夹中的。 如上图,同一文件夹中的所有的文件构成一个Lucene索引。
  • 段(Segment): 一个索引可以包含多个段,段与段之间是独立的,添加新文档可以生成新的段,不同的段可以合并。segments.gen和segments_X是段的元数据文件,也即它们保存了段的属性信息。
  • 文档(Document): 文档是我们建索引的基本单位,不同的文档是保存在不同的段中的,一个段可以包含多篇文档。新添加的文档是单独保存在一个新生成的段中,随着段的合并,不同的文档合并到同一个段中。
  • 域(Field):一篇文档包含不同类型的信息,可以分开索引,比如标题,时间,正文,作者等,都可以保存在不同的域里。 不同域的索引方式可以不同,在真正解析域的存储的时候,我们会详细解读。
  • 词(Term):词是索引的最小单位,是经过词法分析和语言处理后的字符串。

16 Solr 和 Lucene 的区别

Solr和Lucene的本质区别有以下三点:搜索服务器,企业级和管理。Lucene本质上是搜索库,不是独立的应用程序,而Solr是。Lucene专注于搜索底层的建设,而Solr专注于企业应用。Lucene不负责支撑搜索服务所必须的管理,而Solr负责。所以说,一句话概括Solr: Solr是Lucene面向企业搜索应用的扩展

  • Lucene: 是一个索引与搜索类库,而不是完整的程序。
  • Solr:是一个高性能,采用Java5开发,基于Lucene的一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口
上一篇: Spring - 事务
夙梦o
粉丝 0
博文 4
码字总数 6605
作品 0
沙坪坝
私信 提问
加载中
请先登录后再评论。
访问安全控制解决方案

本文是《轻量级 Java Web 框架架构设计》的系列博文。 今天想和大家简单的分享一下,在 Smart 中是如何做到访问安全控制的。也就是说,当没有登录或 Session 过期时所做的操作,会自动退回到...

黄勇
2013/11/03
3.4K
6
Nutch学习笔记4-Nutch 1.7 的 索引篇 ElasticSearch

上一篇讲解了爬取和分析的流程,很重要的收获就是: 解析过程中,会根据页面的ContentType获得一系列的注册解析器, 依次调用每个解析器,当其中一个解析成功后就返回,否则继续执行下一个解...

强子哥哥
2014/06/26
712
0
日志分析平台 - Kibana

Kibana 是一个为 Logstash 和 ElasticSearch 提供的日志分析的 Web 接口。可使用它对日志进行高效的搜索、可视化、分析等各种操作。 环境要求: ruby >= 1.8.7 (probably?) bundler logstash...

匿名
2013/02/13
11.5W
1
服务器自动化任务解决方案--Huginn

Huginn 是雅虎开发的一个系统,可以帮你执行自动化的在线任务。可以阅读网页,关注事件,并采取相应操作。Huginn 通过一个直观的事件流图来展示各种操作和事件。通过在你自己的服务器上的管道加...

匿名
2013/03/15
1.7W
0
StreetPass

StreetPass,最初是想模拟任天堂NDS掌机中的StreetPass开发的(但未完成,大体框架已可行)。适用于记录每天在街上偶遇的纸妹Or帅锅的信息。 原理是想采用Wifi hot技术,由此可以在搜索到附近...

口米巴
2013/03/18
1.5K
0

没有更多内容

加载失败,请刷新页面

加载更多

在后CoVID-19世界中,网络安全将如何变化?

随着世界向云迁移,围绕企业如何解决钓鱼***和勒索软件***的争论不断。 作者:Cassie 编译来源:千家网|2020-08-03 11:13 收藏 分享 随着世界向云迁移,围绕企业如何解决钓鱼***和勒索软件*...

osc_56801rv0
5分钟前
0
0
2020黑帽大会的11大网络安全工具

在8月1日至8月6日举行的线上虚拟活动上,将有130多位安全大咖展示数十种新工具、框架和方法,以保护软件、固件、硬件和移动系统免受各种威胁的侵害,以下是我们精选出的十一大安全工具。 作者...

osc_flwkfqx5
7分钟前
0
0
课程表1(广度搜索之拓扑排序)

你这个学期必须选修 numCourse 门课程,记为 0 到 numCourse-1 。 在选修某些课程之前需要一些先修课程。 例如,想要学习课程 0 ,你需要先完成课程 1 ,我们用一个匹配来表示他们:[0,1] 给...

osc_yf4y1952
7分钟前
0
0
如何检查SQL Server表中是否存在列? - How to check if a column exists in a SQL Server table?

问题: I need to add a specific column if it does not exist. 如果它不存在,我需要添加一个特定的列。 I have something like the following, but it always returns false: 我有类似以下......

javail
8分钟前
0
0
NB-IOT覆盖范围有多大 NB-IOT的强覆盖是怎么实现的

  NB-IoT技术自出现以来就以其强大的覆盖范围和通讯距离长而受到广泛的欢迎,发展到现在已经成为万物互联网络中的一个重要分支。那么NB-IoT覆盖范围到底有多大,是怎么来衡量其覆盖能力?  ...

osc_yozufu01
9分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部