加载中
Lucene评分源码调研

Lucene Scoring 评分公式: score(q,d) = coord(q,d) · queryNorm(q) · ∑ ( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) ) 1. 公式详解: coord(q , d): 一次搜索可能包含多个搜...

2014/12/30 15:46
287
中文分词器IK和Paoding技术对比

1. IK和Paoding的技术介绍 一、Ik分词器介绍: 优点: 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Ema...

2014/12/29 13:45
1K
Lucene的FuzzyQuery中用到的Levenshtein Distance(LD)算法

主题:Levenshtein Distance(LD); 相关介绍:Levenshtein distance是由俄国科学家Vladimir Levenshtein在1965年设计并以他的名字命名的。如果不能拼写或发Levenshtein音,通常可以称它edit di...

2014/10/31 14:13
133
Lucene--FuzzyQuery与WildCardQuery(通配符)

相关lucene的参考资料,可以参考博主:http://blog.csdn.net/caoxu1987728/article/details/2324644

2014/10/30 16:16
249
Lucene 评分(score)机制--Document Boost和Field Boost

在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。 如果希望某些文档和某些域比其他的域更重要,如果此文档和此域包含所要查询的词则应该得分较高,则可以在索引阶段设定文档...

2014/10/24 15:35
249
lucene模糊查询 精确查询 包含关键字 不包含关键字 包含全部关键字 范围查询 模糊查询 通配符

待整理??? lucene模糊查询 精确查询 包含关键字 不包含关键字 包含全部关键字 范围查询 模糊查询 通配符查询 lucene各种查询实现示例

2014/10/22 17:36
270
Lucene/Solr 中文分词比较

对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为: StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnal...

2014/10/21 09:11
701
Lucene4.7 Directory (一)

散仙今天就从源码的角度来分析下Lucene的根基Directory的实现,在此之前,我们先来看下Directory家族的层级分布图。 从上图中,我们可以看出Directory共有11个直接或者间接的子类,不同的子类...

2014/04/11 11:36
552
lucene4.7 锁机制(十)

Lucene的索引体系是一个写独占,读共享的结构,这意味着,我们在使用多线程进行添加索引时,性能并不会得到明显的提升,所以任何时刻只能有一个线程对索引进行写入操作,而保障这个操作的安全...

2014/04/11 11:13
259
lucene4.7 索引文件(九)

在lucene4.x中,lucene的索引文件的几种格式,以及它们的作用和结构。

2014/04/11 11:08
3K
lucene4.7 正则查询(RegexpQuery)(八)

今天要分享的是关于lucene中另外一种丰富的查询方式----正则查询,lucene内置了许多的查询API,以及更强大的自定义查询方式的QueryParse,大部分情况下我们使用内置的查询API,基本上就可以满...

2014/04/11 11:02
2.5K
lucene4.7 高亮功能(八)

高亮功能一直都是全文检索的一项非常优秀的模块,在一个标准的搜索引擎中,高亮的返回命中结果,几乎是必不可少的一项需求,因为通过高亮,我们可以在我们的搜索界面上快速标记出用户的检索关...

2014/04/11 10:52
334
lucene4.7 收集器Collector(七)

关于Lucene里面Collector这个东西,暂且称它为收集器吧,先来看下Lucene内置Collector类的继承图。

2014/04/11 10:40
1K
lucene4.7 过滤Filter(六) ---特殊的filter(DuplicateFilte)

我们在来看下不在Filter家族中的一个特殊的filter,属于Lucene捐赠模块的特殊包中的类DuplicateFilter,这个filter的作用是用来对某个字段进行去重操作的,类似数据库中的Distinct关键字,可...

2014/04/11 10:33
2.3K
lucene4.7 过滤Filter(六)

关于过滤方面的知识,也就是Filter,如果了解Solr的朋友们,肯定都会知道Solr里面fq这个参数,这个参数的作用其实就是lucene里面的过滤,对一些q参数查询的结果集,做过滤或者限制返回一些我...

2014/04/10 18:38
430
lucene4.7 分页(五)

我们先来看下下面的问题,现在我们的索引里有2亿多的数据,那么现在的需求是,把索引里的全部数据,读取然后写入txt文本里,对于这么一个量级的数据,显然是不可能一下子全部读取完的,那得要...

2014/04/10 18:31
3.2K
  lucene4.7 分词器(三) 之特殊分词器

一些特殊的分词需求,在此做个总结。本来的Lucene的内置的分词器,差不多可以完成我们的大部分分词工作了,如果是英文文章那么可以使用StandardAnalyzer标准分词器,WhitespaceAnalyzer空格分...

2014/04/10 18:29
565
lucene4.7 之排序(四)

排序是对于全文检索来言是一个必不可少的功能,在实际运用中,排序功能能在某些时候给我们带来很大的方便,比如在淘宝,京东等一些电商网站我们可能通过排序来快速找到价格最便宜的商品,或者...

2014/04/10 18:11
6.1K
lucene4.7 分词器(三)

前面几章笔者把Lucene基本入门的任督二脉给打通了,从此篇开始,就开始进行Lucene的进阶开发了,那么首先摆在我们面前的第一个必须要解决的问题,就是关于中文分词的问题,因为Lucene毕竟是国...

2014/04/10 18:07
1K
Lucene4.7 索引和检索的常用API(二)

前面几篇笔者已经把Lucene的最基本的入门,介绍完了,本篇就对Lucene基本的知识做一个总结,以便于加深对Lucene基本API组件的理解。 为了方便对比学习,下面给出表格数据 索引期间使用的API...

2014/04/10 17:54
1K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部