文档章节

部署solr建立nutch索引

冲子
 冲子
发布于 2012/02/24 13:32
字数 554
阅读 2095
收藏 2

接着上篇nutch1.4的部署应用,我们来部署一下solr,solr是对lucene进行了封装的企业级搜索应用,具体的大家可以去搜一下了解,我这里就不做具体阐述了,我来说一下solr的部署吧。

首先,我们去solr的官网中下载solr,nutch1.4中应用的solr是3.4,那么我们去官网中也下载3.4吧

http://www.apache.org/dyn/closer.cgi/lucene/solr/

找到3.4.0下载apache-solr-3.4.0.zip或者apache-solr-3.4.0.tgz都可以,下载完成后,我们解压缩,解压完毕后,我们去解压一个tomcat,我用的是tomcat6,解压完tomcat6后,我们打开tomcat 的文件夹, 

然后我们在tomcat下的conf目录下

创建Catalina\localhost目录(如果存在就不用创建)

然后我们创建solr.xml文件

在里面加入如下语句: 

<Context docBase="D:/file/apache-solr-3.4.0/dist/apache-solr-3.4.0.war" reloadable="true" debug="0" privileged="true" allowLinking="true" crossContext="true">  
<Environment name="solr/home" type="java.lang.String" value="D:/file/apache-solr-3.4.0/example/solr" override="true" /> 
<!--
	<Valve className="org.apache.catalina.valves.RemoteAddrValve" allow="127.0.0.1,localhost,192.168.0.127"/> 
-->
</Context>

docBase中是我们的solr的web服务的地址,我们解压solr后,到dist中找到apache-solr-3.4.0.war给引入进来,然后solr/home就是solr的配置和索引地址,测试的话可以引入example/solr,或者把example下的solr 复制到任何位置都可以,只要把solr/home的地址给加正确了就可以。

如果需要控制访问权限则可以配置(上面配置注释的地方):

<Valve className="org.apache.catalina.valves.RemoteAddrValve" allow="127.0.0.1,localhost,192.168.0.127"/>

如果不是来自配置的IP则被拦截会显示403

我们全部配置好了,现在还不行,如果要与nutch进行索引的话,还需要把nutch中的solr配置给copy过来,我们在nutch1.4的conf目录下找到schema.xml文件,然后我们将这个文件copy到solr/home的conf目录下即可,如果不将nutch 下的schema.xml文件copy过去,在生成索引时会出现 一些错误如:

org.apache.solr.common.SolrException: ERROR:unknown field 'content'

配置好了后,然后启动tomcat即可,然后nutch爬取完毕后就会生成索引到solr/home下的data下面:

D:/file/apache-solr-3.4.0/example/solr/data/index下(我的solr/home)

本文转载自:

共有 人打赏支持
冲子
粉丝 1
博文 4
码字总数 167
作品 0
朝阳
加载中

评论(1)

萨比尔江
萨比尔江
Nutch 来怎么搜索 图片呢?
如果您以前研究过,希望指导一下,谢谢~!~1
nutch与起点R3集成之笔记(三)

四、抓取网页,建立solr索引 在抓取网页前,要保证起点R3处在运行状态。即 在浏览器中键入 http://127.0.0.1:880/ 后,会出现如下窗口: 在linux或cygwin中运行nutch抓取网页命令为 :bin/n...

夜游神
2011/07/25
0
8
怎么使用nutch创建索引

@冲子 你好,想跟你请教个问题: 部署solr建立nutch索引,我相对我的日志创建索引 怎么创建呢

枫树街
2012/10/29
332
0
nutch与起点R3集成之笔记(四)

通过“nutch与起点R3集成之笔记(一、二、三)”中的步骤,我们可以建立起一个行业内部网的搜索引擎,但搜索引擎一个最重要的功能,就是必须能搜索到网络中最新的内容。这就要求nutch能及时采...

夜游神
2011/08/04
0
2
ntuch solrindex 能索引出anchor数据的方法

网页的标题在检索排名中占有很重的权重,可是,一些网站管理系统常常用网站名或栏目名做标题,所以,为了保证文章的检索的命中率,nutch在生成lucene的数据时,把anchor也作为排名因素,给予...

夜游神
2013/03/14
0
0
nutch与起点R3集成之笔记(一)

百度、google帮我们找Internet的信息,但对于一个行业内部网(intranet)来说,百度、google就无法帮忙了。并且,对一个行业来说,更多的信息都是放在行业内部网上,并且采用网页、office文档...

夜游神
2011/07/21
0
1

没有更多内容

加载失败,请刷新页面

加载更多

下一页

maven坐标和依赖

一、maven坐标详解 <groupId>com.fgt.club</groupId><artifactId>club-common-service-facade</artifactId><version>3.0.0</version><packaging>jar</packaging> maven的坐标元素说......

老韭菜
今天
1
0
springmvc-servlet.xml配置表功能解释

问:<?xml version="1.0" encoding="UTF-8" ?> 答: xml version="1.0"表示是此xml文件的版本是1.0 encoding="UTF-8"表示此文件的编码方式是UTF-8 问:<!DOCTYPE beans PUBLIC "-//SPRING//......

隐士族隐逸
今天
1
0
基于TP5的微信的公众号获取登录用户信息

之前讲过微信的公众号自动登录的菜单配置,这次记录一下在TP5项目中获取自动登录的用户信息并存到数据库的操作 基本的流程为:微信设置自动登录的菜单—>访问的URL指定的函数里获取用户信息—...

月夜中徘徊
今天
0
0
youTrack

package jetbrains.teamsys.license.runtime; 计算lis package jetbrains.ring.license.reader; 验证lis 安装后先不要生成lis,要把相关文件进行替换 ring-license-checker-1.0.41.jar char......

max佩恩
今天
1
0
12.17 Nginx负载均衡

Nginx负载均衡 下面的dig看到可以返回2个IP,就是解析出来的IP,这样我们可以做负载均衡。 dig www.qq.com 1.vim /usr/local/nginx/conf/vhost/fuzai.conf 2.添加如下配置 upstream qq //定义...

芬野de博客
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部