文档章节

Lucene包结构

6pker
 6pker
发布于 2015/02/26 14:36
字数 517
阅读 105
收藏 9

1.Lucene提供了完整的查询引擎和索引引擎。

2.Lucene的jar包结构:

1)org.apache.lucene.analysis
            对需要建立索引的文本进行分词、过滤等操作语言分析器,主要用于的切词Analyzer是一个抽象类,管理对文本内容的切分词规则。
2)org.apache.lucene.analysis.standard
            是标准分析器
3)org.apache.lucene.document
            提供对DocumentField的各种操作的支持。索引存储时的文档结构管理,类似于关系型数据库的表结构。Document相对于关系型数据库的记录对象,Field主要负责字段的管理。
4)org.apache.lucene.index
            是最重要的包,用于向Lucene提供建立索引时各种操作的支持。索引管理,包括索引建立、删除等。索引包是整个系统核心,全文检索的根本就是为每个切出来的词建索引,查询时就只需要遍历索引,而不需要去正文中遍历,从而极大的提高检索效率。
5)org.apache.lucene.queryParser
            提供检索时的分析支持。查询分析器,实现查询关键词间的运算,如与、或、非等。
6)org.apache.lucene.search
            负责检索。检索管理,根据查询条件,检索得到结果。
7)org.apache.lucene.store
            提供对索引存储的支持。数据存储管理,主要包括一些底层的I/0操作。
8)org.apache.lucene.util
            提供一些常用工具类和常量类的支持

3.索引文件格式:

1).fnm文件:            包含了Document中所有field名称
2).fdt文件:       用于存储具有Store.YES属性的Field的数据;
3).fdx文件:             是一个索引,用于存储Document.fdt中的位置。
4).tis文件:       用于存储分词后的词条(Term
5).tii文件:              就是它的索引文件,它表明了每个.tis文件中的词条的位置。
6)deletable文件:  文档被删除后,会首先在deletable文件中留下一个记录,要真正删除时,才将索引除去。
7).cfs文件:         复合索引格式,使用IndexWriteruseCompoundFile()  默认为True



本文转载自:http://blog.csdn.net/xiaoping8411/article/details/5409940

共有 人打赏支持
6pker
粉丝 51
博文 98
码字总数 59361
作品 0
浦东
程序员
加载中

评论(1)

6pker
6pker
2.lucene整理2 -- 主要的类: http://blog.csdn.net/xiaoping8411/article/details/5409953
3.lucene整理3 -- 排序、过滤、分词器: http://blog.csdn.net/xiaoping8411/article/details/5413738
4.lucene整理4 -- 各种Query: http://blog.csdn.net/xiaoping8411/article/details/5413757
使用lucene进行group操作

近来用lucene进行查询,需要对结果进行group操作,结果发现核心包里面没有提供这个功能。 如果在内存里面对结果再自己用代码实现的话效率太低。查询了一番文档,发现了lucene-grouping。 ja...

雨翔河
2016/04/24
74
0
这么说吧,Lucene很简单,其实就是个框架,用于全文检索用的

我是风月连城,喜欢用简单的语言阐述知识点 长期分享原创java文章,分享进阶架构师学习笔记及学习资料 喜欢的大屌们可以关注下,共同学习,一起进步 ps:由于工资迟迟不发,影响心情,好几天没写文章...

java进阶架构师
2017/09/28
0
0
lucene索引文件能存放在jar包中吗?

通过使用common-vfs扩展了lucene的索引存储结构,但是并不能访问jar包中的索引文件。谢谢!

追逐繁星的孩子
2013/01/15
184
2
Lucene使用IKAnalyzer中文分词笔记

本文主要讲解IKAnalyzer(以下简称‘IK’)在Lucene中的具体使用,关于Lucene和IK分词器的背景及其作用在这里就不再熬述。不得不感叹下Lucene版本变更的快速,如今最新已经到了4.9.0,相信任...

Jialy
2014/09/02
0
0
Lucene的索引系统和搜索过程分析

前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词...

Shendu.cc
07/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

HashTable

Hashtable 是一个散列表,它存储的内容是键值对(key-value)映射 Hashtable 继承于Dictionary,实现了Map、Cloneable、java.io.Serializable接口 Hashtable 的函数都是同步的,这意味着它是线...

职业搬砖20年
5分钟前
0
0
Linux系统状态查看命令1

10月23日任务 10.1 使用w查看系统负载 10.2 vmstat命令 10.3 top命令 10.4 sar命令 10.5 nload命令 查看系统负载 w命令 # 第一行:当前系统时间,系统启动时间,登录的用户,系统负载:1分钟...

robertt15
20分钟前
0
0
缓存那些事

前言 一般而言,现在互联网应用(网站或App)的整体流程,可以概括如图1所示,用户请求从界面(浏览器或App界面)到网络转发、应用服务再到存储(数据库或文件系统),然后返回到界面呈现内容...

Skqing
29分钟前
0
0
nginx开启stub_status模块配置方法

nginx开启stub_status模块配置方法 2017年12月13日 15:57:29 ly_dengle 阅读数:3765 标签: stub_statusnginxnginx开启stub_status模块 更多 个人分类: 软件工具php 版权声明:本文为博主原...

linjin200
36分钟前
3
0
挑逗 Java 程序员的那些 Scala 绝技

有个问题一直困扰着 Scala 社区,为什么一些 Java 开发者将 Scala 捧到了天上,认为它是来自上帝之吻的完美语言;而另外一些 Java 开发者却对它望而却步,认为它过于复杂而难以理解。同样是 ...

joymufeng
39分钟前
94
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部