文档章节

Lucene包结构

6pker
 6pker
发布于 2015/02/26 14:36
字数 517
阅读 106
收藏 9

1.Lucene提供了完整的查询引擎和索引引擎。

2.Lucene的jar包结构:

1)org.apache.lucene.analysis
            对需要建立索引的文本进行分词、过滤等操作语言分析器,主要用于的切词Analyzer是一个抽象类,管理对文本内容的切分词规则。
2)org.apache.lucene.analysis.standard
            是标准分析器
3)org.apache.lucene.document
            提供对DocumentField的各种操作的支持。索引存储时的文档结构管理,类似于关系型数据库的表结构。Document相对于关系型数据库的记录对象,Field主要负责字段的管理。
4)org.apache.lucene.index
            是最重要的包,用于向Lucene提供建立索引时各种操作的支持。索引管理,包括索引建立、删除等。索引包是整个系统核心,全文检索的根本就是为每个切出来的词建索引,查询时就只需要遍历索引,而不需要去正文中遍历,从而极大的提高检索效率。
5)org.apache.lucene.queryParser
            提供检索时的分析支持。查询分析器,实现查询关键词间的运算,如与、或、非等。
6)org.apache.lucene.search
            负责检索。检索管理,根据查询条件,检索得到结果。
7)org.apache.lucene.store
            提供对索引存储的支持。数据存储管理,主要包括一些底层的I/0操作。
8)org.apache.lucene.util
            提供一些常用工具类和常量类的支持

3.索引文件格式:

1).fnm文件:            包含了Document中所有field名称
2).fdt文件:       用于存储具有Store.YES属性的Field的数据;
3).fdx文件:             是一个索引,用于存储Document.fdt中的位置。
4).tis文件:       用于存储分词后的词条(Term
5).tii文件:              就是它的索引文件,它表明了每个.tis文件中的词条的位置。
6)deletable文件:  文档被删除后,会首先在deletable文件中留下一个记录,要真正删除时,才将索引除去。
7).cfs文件:         复合索引格式,使用IndexWriteruseCompoundFile()  默认为True



本文转载自:http://blog.csdn.net/xiaoping8411/article/details/5409940

共有 人打赏支持
6pker
粉丝 52
博文 97
码字总数 59252
作品 0
浦东
程序员
私信 提问
加载中

评论(1)

6pker
6pker
2.lucene整理2 -- 主要的类: http://blog.csdn.net/xiaoping8411/article/details/5409953
3.lucene整理3 -- 排序、过滤、分词器: http://blog.csdn.net/xiaoping8411/article/details/5413738
4.lucene整理4 -- 各种Query: http://blog.csdn.net/xiaoping8411/article/details/5413757
使用lucene进行group操作

近来用lucene进行查询,需要对结果进行group操作,结果发现核心包里面没有提供这个功能。 如果在内存里面对结果再自己用代码实现的话效率太低。查询了一番文档,发现了lucene-grouping。 ja...

雨翔河
2016/04/24
74
0
这么说吧,Lucene很简单,其实就是个框架,用于全文检索用的

我是风月连城,喜欢用简单的语言阐述知识点 长期分享原创java文章,分享进阶架构师学习笔记及学习资料 喜欢的大屌们可以关注下,共同学习,一起进步 ps:由于工资迟迟不发,影响心情,好几天没写文章...

java进阶架构师
2017/09/28
0
0
lucene索引文件能存放在jar包中吗?

通过使用common-vfs扩展了lucene的索引存储结构,但是并不能访问jar包中的索引文件。谢谢!

追逐繁星的孩子
2013/01/15
226
2
Lucene使用IKAnalyzer中文分词笔记

本文主要讲解IKAnalyzer(以下简称‘IK’)在Lucene中的具体使用,关于Lucene和IK分词器的背景及其作用在这里就不再熬述。不得不感叹下Lucene版本变更的快速,如今最新已经到了4.9.0,相信任...

Jialy
2014/09/02
0
0
Lucene的索引系统和搜索过程分析

前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词...

Shendu.cc
07/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

mysql 时间格式化

DATE_FORMAT

1713716445
11分钟前
0
0
聊聊flink的PartitionableListState

序 本文主要研究一下flink的PartitionableListState PartitionableListState flink-runtime_2.11-1.7.0-sources.jar!/org/apache/flink/runtime/state/DefaultOperatorStateBackend.java /*......

go4it
16分钟前
0
0
Micropython教程之TPYBoard开发板制作电子时钟(萝卜学科编程教育)

1.实验目的 1. 学习在PC机系统中扩展简单I/O?接口的方法。 2. 什么是SPI接口。 3. 学习TPYBoard I2C接口的用法。 4. 学习LCD5110接线方法。 5. 设定时钟并将当前时间显示在LCD5110上。 2.所需...

bodasisiter
16分钟前
0
0
js 闭包

闭包,是 Javascript 比较重要的一个概念,对于初学者来讲,闭包是一个特别抽象的概念,特别是 ECMAScript 规范给的定义,如果没有实战经验,很难从定义去理解它。因此,本文不会对闭包的概念...

MrBoyce
21分钟前
0
0
Java B2B2C o2o多用户商城 springcloud架-企业云架构common-service代码结构分析

当前的分布式微服务云架构平台使用Maven构建,所以common-service的通用服务按照maven构建独立的系统服务,结构如下: particle-commonservice: spring cloud 系统服务根项目,所有服务项目...

itcloud
26分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部