文档章节

9个基于Java的搜索引擎框架

引鸩怼孑
 引鸩怼孑
发布于 2015/07/30 11:05
字数 1253
阅读 1.4K
收藏 64

9个基于Java的搜索引擎框架

[导读] Lucene是目前最受欢迎的Java全文搜索框架,准确地说,它是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene为开发人员提供了相当完整的工具包,可以非常方便地实现强大的全文检索功能。下面有几款搜索引擎框架也是基于Lucene实现的

在这个信息相当繁杂的互联网时代,我们已经学会了如何利用搜索引擎这个强大的利器来找寻目标信息,比如你会在Google上搜索情人节如何讨女朋友欢心,你也会在百度上寻找正规的整容医疗机构(尽管有很大一部分广告骗子)。那么如果在你自己开发的网站系统中需要能让用户搜索一些重要的信息,并且能以结构化的结果展现给用户,下面分享的这9款Java搜索引擎框架或许就可以帮助到你了。

\

1、Java 全文搜索引擎框架 Lucene

毫无疑问,Lucene是目前最受欢迎的Java全文搜索框架,准确地说,它是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene为开发人员提供了相当完整的工具包,可以非常方便地实现强大的全文检索功能。下面有几款搜索引擎框架也是基于Lucene实现的。

官方网站:http://lucene.apache.org/

2、开源Java搜索引擎Nutch

Nutch 是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

利用Nutch,你可以做到以下这些功能:

  • 每个月取几十亿网页
  • 为这些网页维护一个索引
  • 对索引文件进行每秒上千次的搜索
  • 提供高质量的搜索结果
  • 以最小的成本运作

官方网站:http://nutch.apache.org/

3、分布式搜索引擎 ElasticSearch

ElasticSearch就是一款基于Lucene框架的分布式搜索引擎,并且也是一款为数不多的基于JSON进行索引的搜索引擎。ElasticSearch特别适合在云计算平台上使用。

官方网站:http://www.elasticsearch.org/

4、实时分布式搜索引擎 Solandra

Solandra 是一个实时的分布式搜索引擎,基于 Apache Solr 和 Apache Cassandra 构建。

其特性如下:

  • 支持Solr的大多数默认特性 (search, faceting, highlights)
  • 数据复制,分片,缓存及压缩这些都由Cassandra来进行
  • Multi-master (任意结点都可供读写)
  • 实时性高,写操作完成即可读到
  • Easily add new SolrCores w/o restart across the cluster 轻松添加及重启结点

官方网站:https://github.com/tjake/Solandra

5、IndexTank

IndexTank是一套基于Java的索引-实时全文搜索引擎实现,IndexTank有以下几个特点:

  • 索引更新实时生效
  • 地理位置搜索
  • 支持多种客户端语言
    Ruby, Rails, Python, Java, PHP, .NET & more!
  • 支持灵活的排序与评分控制
  • 支持自动完成
  • 支持面搜索(facet search)
  • 支持匹配高亮
  • 支持海量数据扩展(Scalable from a personal blog to hundreds of millions of documents! )
  • 支持动态数据

官方网站:https://github.com/linkedin/indextank-engine

6、搜索引擎 Compass

Compass是一个强大的,事务的,高性能的对象/搜索引擎映射(OSEM:object/search engine mapping)与一个Java持久层框架.Compass包括:

  • 搜索引擎抽象层(使用Lucene搜索引荐)
  • OSEM (Object/Search Engine Mapping) 支持
  • 事务管理
  • 类似于Google的简单关键字查询语言
  • 可扩展与模块化的框架
  • 简单的API

官方网站:http://www.compass-project.org/

7、Java全文搜索服务器 Solr

Solr也是基于Java实现的,并且是基于Lucene实现的,Solr的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果。值得注意的是,Solr还提供一款很棒的Web界面来管理索引的数据。

官方网站:http://lucene.apache.org/solr/

8、Lucene图片搜索 LIRE

LIRE是一款基于Java的图片搜索框架,其核心也是基于Lucene的,利用该索引就能够构建一个基于内容的图像检索(content- based image retrieval,CBIR)系统,来搜索相似的图像。

官方网站:http://www.semanticmetadata.net/lire/

9、全文本搜索引擎 Egothor

Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。

官方网站:http://www.egothor.org/cms/

本文链接:http://www.codeceo.com/article/8-java-search-engine.html

本文转载自:http://www.php100.com/html/it/mobile/2014/0904/7275.html

引鸩怼孑
粉丝 45
博文 208
码字总数 16947
作品 0
南京
项目经理
私信 提问
加载中

评论(0)

Kotlin 喧嚣过后,谈谈 Java 程序员未来的出路

自从谷歌 I/O 2017宣布将支持 Kotlin 作为 Android 开发的 First-Class 语言,各种 Kotlin 能否取代 Java 的文章、争论层出不穷。 作为一名老 Java 程序员,心态是比较复杂的,虽然类似场面见...

两味真火
2017/05/27
7.1K
62
推荐一款JAVA/JSP网店系统SHOP++

SHOP++是国内唯数不多的JAVA/JSP网店项目之一,是基于struts2、hibernate、spring框架开发,生成HTML静态页面,对于搜索引擎优化非常有利。前台采用现在非常热门的Jquery框架技术,是基于fre...

小海海
2010/02/26
2.8K
5
译:Hibernate Search - Getting started(Chapter 2)

Getting started with Hibernate Search 本章内容包括: ■ 什么是 Hibernate Search? ■ 如何建立和配置 Hibernate Search ■ 领域模型映射简介 ■ 数据索引简介 ■ 全文查询简介 ■ 如何使...

cwalet
2012/06/01
345
0
推荐!国外程序员整理的Java资源大全

构建 这里搜集了用来构建应用程序的工具。 Apache Maven:Maven使用声明进行构建并进行依赖管理,偏向于使用约定而不是配置进行构建。Maven优于Apache Ant。后者采用了一种过程化的方式进行配...

huntering
2015/01/13
635
0
构建 这里搜集了用来构建应用程序的工具。 Apache Maven:Maven使用声明进行构建并

构建 这里搜集了用来构建应用程序的工具。 Apache Maven:Maven使用声明进行构建并进行依赖管理,偏向于使用约定而不是配置进行构建。Maven优于Apache Ant。后者采用了一种过程化的方式进行配...

enosh
2015/01/09
244
2

没有更多内容

加载失败,请刷新页面

加载更多

ES6 - 基础学习(3): const关键字的本质

const 是如何做到变量在声明初始化之后不允许改变的? 其实 const 保证的不是变量的值不允许改变,而是保证该变量指向的内存地址所保存的数据不允许改变。 由于简单数据类型和复合数据类型保...

osc_j9qcf98f
28分钟前
32
0
JavaScript连载3-变量内存分析、常量、数据类型

一、变量的内粗分析 1.变量的默认值 (1)如果变量初始化时没有赋值,那么里面存储的时undefined (2)示例 var lk; console.log(lk); 2.同时声明多个变量 两种方式 var name,age,sex; name...

osc_cudh2wh2
29分钟前
34
0
计算机逻辑运算总结

在计算机二进制中,最高位表示符号位,若为0表示正数,若为1表示负数。同时我们需要清楚知道原码、反码、补码的概念,这里请自行了解。 取非/反(~):在二进制补码中,要获取数字的负数,需...

osc_rki151ee
30分钟前
16
0
Unchecked runtime.lastError: The message port closed before a response was received.

谷歌浏览器 Unchecked runtime.lastError: The message port closed before a response was received. 油猴插件引起的 把一些插件禁用就行了 文章来源:刘俊涛的博客 欢迎关注公众号、留言、...

osc_kdarxvx0
31分钟前
25
0
360浏览器下载pdf总是中断

如图: 总会卡着不走,网速正常。 你好,您可以尝试以下办法,涉及注册表修改,请提前到处备份 1 右键点击桌面上快捷方式,选择用管理员权限打开试试。 2 打开注册表regedit.exe,把 [HKEY_...

osc_bzc91lgy
33分钟前
15
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部