文档章节

Lucene包结构

6pker
 6pker
发布于 2015/02/26 14:36
字数 517
阅读 102
收藏 9

1.Lucene提供了完整的查询引擎和索引引擎。

2.Lucene的jar包结构:

1)org.apache.lucene.analysis
            对需要建立索引的文本进行分词、过滤等操作语言分析器,主要用于的切词Analyzer是一个抽象类,管理对文本内容的切分词规则。
2)org.apache.lucene.analysis.standard
            是标准分析器
3)org.apache.lucene.document
            提供对DocumentField的各种操作的支持。索引存储时的文档结构管理,类似于关系型数据库的表结构。Document相对于关系型数据库的记录对象,Field主要负责字段的管理。
4)org.apache.lucene.index
            是最重要的包,用于向Lucene提供建立索引时各种操作的支持。索引管理,包括索引建立、删除等。索引包是整个系统核心,全文检索的根本就是为每个切出来的词建索引,查询时就只需要遍历索引,而不需要去正文中遍历,从而极大的提高检索效率。
5)org.apache.lucene.queryParser
            提供检索时的分析支持。查询分析器,实现查询关键词间的运算,如与、或、非等。
6)org.apache.lucene.search
            负责检索。检索管理,根据查询条件,检索得到结果。
7)org.apache.lucene.store
            提供对索引存储的支持。数据存储管理,主要包括一些底层的I/0操作。
8)org.apache.lucene.util
            提供一些常用工具类和常量类的支持

3.索引文件格式:

1).fnm文件:            包含了Document中所有field名称
2).fdt文件:       用于存储具有Store.YES属性的Field的数据;
3).fdx文件:             是一个索引,用于存储Document.fdt中的位置。
4).tis文件:       用于存储分词后的词条(Term
5).tii文件:              就是它的索引文件,它表明了每个.tis文件中的词条的位置。
6)deletable文件:  文档被删除后,会首先在deletable文件中留下一个记录,要真正删除时,才将索引除去。
7).cfs文件:         复合索引格式,使用IndexWriteruseCompoundFile()  默认为True



本文转载自:http://blog.csdn.net/xiaoping8411/article/details/5409940

共有 人打赏支持
6pker
粉丝 51
博文 98
码字总数 59361
作品 0
浦东
程序员
加载中

评论(1)

6pker
6pker
2.lucene整理2 -- 主要的类: http://blog.csdn.net/xiaoping8411/article/details/5409953
3.lucene整理3 -- 排序、过滤、分词器: http://blog.csdn.net/xiaoping8411/article/details/5413738
4.lucene整理4 -- 各种Query: http://blog.csdn.net/xiaoping8411/article/details/5413757
使用lucene进行group操作

近来用lucene进行查询,需要对结果进行group操作,结果发现核心包里面没有提供这个功能。 如果在内存里面对结果再自己用代码实现的话效率太低。查询了一番文档,发现了lucene-grouping。 ja...

雨翔河
2016/04/24
74
0
这么说吧,Lucene很简单,其实就是个框架,用于全文检索用的

我是风月连城,喜欢用简单的语言阐述知识点 长期分享原创java文章,分享进阶架构师学习笔记及学习资料 喜欢的大屌们可以关注下,共同学习,一起进步 ps:由于工资迟迟不发,影响心情,好几天没写文章...

java进阶架构师
2017/09/28
0
0
Lucene的索引系统和搜索过程分析

前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词...

Shendu.cc
07/12
0
0
Lucene使用IKAnalyzer中文分词笔记

本文主要讲解IKAnalyzer(以下简称‘IK’)在Lucene中的具体使用,关于Lucene和IK分词器的背景及其作用在这里就不再熬述。不得不感叹下Lucene版本变更的快速,如今最新已经到了4.9.0,相信任...

Jialy
2014/09/02
0
0
lucene索引文件能存放在jar包中吗?

通过使用common-vfs扩展了lucene的索引存储结构,但是并不能访问jar包中的索引文件。谢谢!

追逐繁星的孩子
2013/01/15
184
2

没有更多内容

加载失败,请刷新页面

加载更多

下一页

八大包装类型的equals方法

先看其中一个源码 结论:八大包装类型的equals方法都是先判断类型是否相同,不相同则是false,相同则判断值是否相等 注意:包装类型不能直接用==来等值比较,否则编译报错,但是数值的基本类型...

xuklc
29分钟前
1
0
NoSQL , Memcached介绍

什么是NoSQL 非关系型数据库就是NoSQL,关系型数据库代表MySQL 对于关系型数据库来说,是需要把数据存储到库、表、行、字段里,查询的时候根据条件一行一行地去匹配,当量非常大的时候就很耗...

TaoXu
昨天
0
0
890. Find and Replace Pattern - LeetCode

Question 890. Find and Replace Pattern Solution 题目大意:从字符串数组中找到类型匹配的如xyy,xxx 思路: 举例:words = ["abc","deq","mee","aqq","dkd","ccc"], pattern = "abb"abc ......

yysue
昨天
0
0
Linux | Redis

写在前面的话 常言道,不作笔记不读书。在下是深有体会啊,所以,跟我一起做下本节的笔记吧,或许多年以后,你一定会感谢今天的你。 安装 在官网的下载页 Redis Download 直接写了在Linux的安...

冯文议
昨天
1
0
NoSQL-memcached

NoSQL介绍 NoSQL叫非关系型数据库。而关系型数据库代表有MySQL。对于关系型数据库来说,是需要把数据存储到库、表、行、字段里,查询的时候根据条件一行一行地去匹配,当量非常大的时候就很...

ln97
昨天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部