文档章节

lucene开发必备工具luke介绍

曾杰
 曾杰
发布于 2012/04/30 18:47
字数 1073
阅读 4474
收藏 27

本文已经迁移到搞搜索

做lucene开发的,免不了要和索引文件打交道,但是一些二进制的文件我们怎么去看,下面就要隆重的有请luke了

根据百度百科的说法:Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它可以访问现有Lucene的索引,并允许您显示和修改。

我们可以通过luke来进行一般的索引查看和修改操作。

就打个比方,lucene的索引文件就好像是数据库存储的数据文件,luke就是一个DBMS系统,相信都懂的^_^

首先jdk是必须地,然后直接到googlecode上把最新的luke下下来,我现在用的是3.5版本,下下来就是一个jar包,可以直接双击打开,或者到命令行:java -jar /lukeall-3.5.0.jar,界面还是不错的哈,然后上方的菜单栏上的file按钮就可以打开索引目录了,如果当前索引已经被打开了(里面有write.lock文件了),我们就可以使用强制解锁的方法来打开目录,或者是使用readonly的方法来打开索引目录,打开后就可以像DBMS一看的查看索引里面保存的数据了,如果索引改变了,可以点击overview界面上的re-open按钮重新打开。

共有5个界面:

overview是用来进行索引的一般性查看和操作的,比如索引目录民,索引文件版本。。。等等概要信息,右上角三个按钮分别可以重新打开索引,提交索引更改和关闭当前打开的索引,下面两个list就是显示词和字段的相关信息了。

documents界面是用来进行文档的操作和查看的,比如文件的删除、添加。下面一个大listview就可以用来查看文档的详细信息了,是不是和DBMS的查看表数据非常的像呢?上面有两个查找文档的方法,根据文档编号来查找和根据词来查找了,其实这个就是搜索了

search界面是我认为最有用的一个界面了,其中我们可以在这里进行索引的搜索测试,可以编写最的lucene搜索语句,然后可以看到语句解析后的query树,这样就可以知道为什么我们有些查询会查询不到我们想要的信息了,然后还可以选择进行搜索的分词器、默认字段和重复搜索次数的(可以通过多次搜索来获取平均一个搜索过程的耗时长短,这个对查询的性能测试时非常有用的),然后下面的listview中就会列出一个搜索的的文档的所有保存的(store)字段的值,下面可以看到查询花费的时间

file界面,故名思义,这个就是用来查看每个索引相关文件的一些属性的界面,具体的话,可以通过这个界面分析下索引文件的多少,是否需要优化或者合并等等。。。。

最后一个plugins界面,就是可以看到luke提供的各种插件,我认为比较有用的还是那个分词工具,提供一个分词的类,然后下面文本框输入一段文本,然后就可以让这个工具帮你分词,你可以看到详细的分词信息,相信这个对自定义分词器的调试或者测试还是很有用的。然后还有一个hadoop插件,支持从hadoop节点中获取节点中文件的相关信息,这个应该对分布式搜索引擎搭建还是有那么点用吧。。。。不过我认为如果用hadoop的话,一定会用更强大的插件的。。。这个是不是有点多余了,哈哈

 附上下载地址:http://code.google.com/p/luke/downloads/list

文笔不好,而且没有配上图片(不知道怎么上传图片 = =)希望大家多多批评指教哈,另外五一快乐!!!!IT民工们!!

© 著作权归作者所有

共有 人打赏支持
曾杰
粉丝 63
博文 29
码字总数 33133
作品 0
广州
高级程序员
加载中

评论(1)

活的自由
活的自由
这个工具不错,谢谢分享。
lucene开发序幕曲之luke神器

Lucene是一款很优秀的全文检索的开源库,目前最新的版本是Lucene4.4。 很多人知道lucene或者solr,但是却很少人知道luke,在这里笔者就对luke做一个简单的介绍,Luke是一个用于Lucene搜索引擎...

heroShane
2014/02/20
0
0
lucene开发序幕曲之luke神器

有很多人知道lucene或者solr,但是却有很少人知道luke,在这里笔者就对luke做一个简单的介绍,Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它可以访问现有Lucene的索引,并...

一枚Sir
2014/04/10
0
0
开源中国10-4期软件推荐 Lucene索引查看工具Luke

开源中国社区10-4期(10月份第4周)推荐的开源软件是Luke,Luke是一款Lucene索引查看工具。 Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它可以访问现有Lucene的索引,并允...

老枪
2010/10/25
2.3K
1
Confluence 6 查看索引和提示

查看索引 Confluence 使用被称为 Lucene 的搜索引擎。如果你希望在你的 Confluence站点中查看更多有关索引的细节,你可以下载并且运行 Luke。Luke 是一个开发和诊断工具,这个工具针对已经存...

honeymose
07/10
0
0
Luke 5 发布,可视化 Lucene 索引查看工具

这是一个主要版本,该版本支持 Lucene 5.2.0。 它支持 elasticsearch 1.6.0(Lucene的4.10.4) 已解决的问题: #20增加支持重建索引并不会存储领域,不暴露位置的字段值。 Pull Requests: ...

oschina
2015/08/31
6.2K
7

没有更多内容

加载失败,请刷新页面

加载更多

Spring IOC实现原理

1、BeanDefinition 对依赖翻转模式中管理对象依赖关系的数据抽象 实现依赖翻转功能的核心数据结构 依赖翻转功能都是围绕对BeanDefinition 处理完成的 有了这些BeanDefinition 基础数据结构,...

职业搬砖20年
27分钟前
1
0
Python判断变量的数据类型的两种方法

1、isinstance(变量名,类型) def varargsql(self, sql, *args): if isinstance(args, tuple): self.cursor.execute(sql, args) self.conn.commit() 2、通过与其他已......

fang_faye
28分钟前
1
0
xml 转义特殊字符

XML中共有5个特殊的字符,分别是:&<>“’。如果配置文件中的注入值包括这些特殊字符,就需要进行特别处理。有两种解决方法:其一,采用本例中的特殊标签,将包含特殊字符的字符串封装起来;...

inidcard
29分钟前
1
0
Mysql中哪些sql 不会走索引

1. 索引列参与了计算 SELECT `sname` FROM `stu` WHERE `age`+10=30; 2. 索引使用了函数运算 SELECT `sname` FROM `stu` WHERE LEFT(`date`,4) <1990; 3. like SELECT * FROM `houdunwang` W......

ChyiHuang
38分钟前
2
0
nginx 504 Gateway Time-out

打开nginx.config: 参数介绍: #设定http服务器http{include mime.types; #文件扩展名与文件类型映射表default_type application/octet-stream; #默认文件类型#charset utf-8; #默...

lyle_luo
40分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部