Lucene包结构
博客专区 > 6pker 的博客 > 博客详情
Lucene包结构
6pker 发表于3年前
Lucene包结构
  • 发表于 3年前
  • 阅读 95
  • 收藏 9
  • 点赞 0
  • 评论 1

腾讯云 技术升级10大核心产品年终让利>>>   

1.Lucene提供了完整的查询引擎和索引引擎。

2.Lucene的jar包结构:

1)org.apache.lucene.analysis
            对需要建立索引的文本进行分词、过滤等操作语言分析器,主要用于的切词Analyzer是一个抽象类,管理对文本内容的切分词规则。
2)org.apache.lucene.analysis.standard
            是标准分析器
3)org.apache.lucene.document
            提供对DocumentField的各种操作的支持。索引存储时的文档结构管理,类似于关系型数据库的表结构。Document相对于关系型数据库的记录对象,Field主要负责字段的管理。
4)org.apache.lucene.index
            是最重要的包,用于向Lucene提供建立索引时各种操作的支持。索引管理,包括索引建立、删除等。索引包是整个系统核心,全文检索的根本就是为每个切出来的词建索引,查询时就只需要遍历索引,而不需要去正文中遍历,从而极大的提高检索效率。
5)org.apache.lucene.queryParser
            提供检索时的分析支持。查询分析器,实现查询关键词间的运算,如与、或、非等。
6)org.apache.lucene.search
            负责检索。检索管理,根据查询条件,检索得到结果。
7)org.apache.lucene.store
            提供对索引存储的支持。数据存储管理,主要包括一些底层的I/0操作。
8)org.apache.lucene.util
            提供一些常用工具类和常量类的支持

3.索引文件格式:

1).fnm文件:            包含了Document中所有field名称
2).fdt文件:       用于存储具有Store.YES属性的Field的数据;
3).fdx文件:             是一个索引,用于存储Document.fdt中的位置。
4).tis文件:       用于存储分词后的词条(Term
5).tii文件:              就是它的索引文件,它表明了每个.tis文件中的词条的位置。
6)deletable文件:  文档被删除后,会首先在deletable文件中留下一个记录,要真正删除时,才将索引除去。
7).cfs文件:         复合索引格式,使用IndexWriteruseCompoundFile()  默认为True



标签: Lucene
共有 人打赏支持
粉丝 49
博文 97
码字总数 59339
评论 (1)
6pker
2.lucene整理2 -- 主要的类: http://blog.csdn.net/xiaoping8411/article/details/5409953
3.lucene整理3 -- 排序、过滤、分词器: http://blog.csdn.net/xiaoping8411/article/details/5413738
4.lucene整理4 -- 各种Query: http://blog.csdn.net/xiaoping8411/article/details/5413757
×
6pker
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: