文档章节

部署solr建立nutch索引

冲子
 冲子
发布于 2012/02/24 13:32
字数 554
阅读 2096
收藏 2

接着上篇nutch1.4的部署应用,我们来部署一下solr,solr是对lucene进行了封装的企业级搜索应用,具体的大家可以去搜一下了解,我这里就不做具体阐述了,我来说一下solr的部署吧。

首先,我们去solr的官网中下载solr,nutch1.4中应用的solr是3.4,那么我们去官网中也下载3.4吧

http://www.apache.org/dyn/closer.cgi/lucene/solr/

找到3.4.0下载apache-solr-3.4.0.zip或者apache-solr-3.4.0.tgz都可以,下载完成后,我们解压缩,解压完毕后,我们去解压一个tomcat,我用的是tomcat6,解压完tomcat6后,我们打开tomcat 的文件夹, 

然后我们在tomcat下的conf目录下

创建Catalina\localhost目录(如果存在就不用创建)

然后我们创建solr.xml文件

在里面加入如下语句: 

<Context docBase="D:/file/apache-solr-3.4.0/dist/apache-solr-3.4.0.war" reloadable="true" debug="0" privileged="true" allowLinking="true" crossContext="true">  
<Environment name="solr/home" type="java.lang.String" value="D:/file/apache-solr-3.4.0/example/solr" override="true" /> 
<!--
	<Valve className="org.apache.catalina.valves.RemoteAddrValve" allow="127.0.0.1,localhost,192.168.0.127"/> 
-->
</Context>

docBase中是我们的solr的web服务的地址,我们解压solr后,到dist中找到apache-solr-3.4.0.war给引入进来,然后solr/home就是solr的配置和索引地址,测试的话可以引入example/solr,或者把example下的solr 复制到任何位置都可以,只要把solr/home的地址给加正确了就可以。

如果需要控制访问权限则可以配置(上面配置注释的地方):

<Valve className="org.apache.catalina.valves.RemoteAddrValve" allow="127.0.0.1,localhost,192.168.0.127"/>

如果不是来自配置的IP则被拦截会显示403

我们全部配置好了,现在还不行,如果要与nutch进行索引的话,还需要把nutch中的solr配置给copy过来,我们在nutch1.4的conf目录下找到schema.xml文件,然后我们将这个文件copy到solr/home的conf目录下即可,如果不将nutch 下的schema.xml文件copy过去,在生成索引时会出现 一些错误如:

org.apache.solr.common.SolrException: ERROR:unknown field 'content'

配置好了后,然后启动tomcat即可,然后nutch爬取完毕后就会生成索引到solr/home下的data下面:

D:/file/apache-solr-3.4.0/example/solr/data/index下(我的solr/home)

本文转载自:

共有 人打赏支持
冲子
粉丝 1
博文 4
码字总数 167
作品 0
朝阳
加载中

评论(1)

萨比尔江
萨比尔江
Nutch 来怎么搜索 图片呢?
如果您以前研究过,希望指导一下,谢谢~!~1
nutch与起点R3集成之笔记(三)

四、抓取网页,建立solr索引 在抓取网页前,要保证起点R3处在运行状态。即 在浏览器中键入 http://127.0.0.1:880/ 后,会出现如下窗口: 在linux或cygwin中运行nutch抓取网页命令为 :bin/n...

夜游神
2011/07/25
0
8
怎么使用nutch创建索引

@冲子 你好,想跟你请教个问题: 部署solr建立nutch索引,我相对我的日志创建索引 怎么创建呢

枫树街
2012/10/29
332
0
ntuch solrindex 能索引出anchor数据的方法

网页的标题在检索排名中占有很重的权重,可是,一些网站管理系统常常用网站名或栏目名做标题,所以,为了保证文章的检索的命中率,nutch在生成lucene的数据时,把anchor也作为排名因素,给予...

夜游神
2013/03/14
0
0
nutch与起点R3集成之笔记(四)

通过“nutch与起点R3集成之笔记(一、二、三)”中的步骤,我们可以建立起一个行业内部网的搜索引擎,但搜索引擎一个最重要的功能,就是必须能搜索到网络中最新的内容。这就要求nutch能及时采...

夜游神
2011/08/04
0
2
nutch与起点R3集成之笔记(一)

百度、google帮我们找Internet的信息,但对于一个行业内部网(intranet)来说,百度、google就无法帮忙了。并且,对一个行业来说,更多的信息都是放在行业内部网上,并且采用网页、office文档...

夜游神
2011/07/21
0
1

没有更多内容

加载失败,请刷新页面

加载更多

MySQL 到底支不支持事务嵌套?

最近开发中遇到了使用MySQL,多次开启事务,出现了数据错乱问题,伪代码如下: begin; # 操作1 begin; # 操作2 rollback; 执行完后出现了操作1的数据真正写入,只有操作2的数据回滚...

宇润
31分钟前
3
0
fastDfs应用(安装过程待写)

1.效果 2.安装 2.1 导入已经安装好fastDFS的镜像 2.1.1 导入镜像 2.1.2 更改系统兼容性 2.1.3 开机 2.1.4 修改 一下内容 2.1.4.1 修改系统的ip 原来系统ip...

Lucky_Me
34分钟前
3
0
5. Python3源码—字符串(str)对象

5.1. 字符串对象 字符串对象是“变长对象”。 5.1.1. Python中的创建 Python中字符串(strs)对象最重要的创建方法为PyUnicode_DecodeUTF8Stateful,如下Python语句最终会调用到PyUnicode_D...

Mr_zebra
54分钟前
3
0
第十章:路由网关(Zuul)进阶:过滤器、异常处理

第十章:路由网关(Zuul)进阶:过滤器、异常处理 简单介绍了关于Zuul的一些简单使用以及一些路由规则的简单说明。而对于一个统一网关而言,需要处理各种各类的请求,对不同的url进行拦截,或者...

DemonsI
55分钟前
2
0
nginx屏蔽指定接口(URL)

Step1:需求 web平台上线后,需要屏蔽某个服务接口,但又不想重新上线,可以采用nginx屏蔽指定平台接口的办法 Step2:具体操作 location /dist/views/landing/UNIQUE_BEACON_URL { re...

Linux_Anna
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部