文档章节

solr4.10与nutch1.9整合

a
 asd121213
发布于 2015/04/23 22:35
字数 704
阅读 45
收藏 0

Solr4.10nutch1.9整合(win7

1. solr安装及配置

1.1 solr下载地址

http://lucene.apache.org/solr/

1.2环境准备

Tomcat7 + jdk1.7 + solr4.10

注:solr 4.8及以上必须要jdk1.7或者以上才能正确编译 如果使用jdk1.6或者以下的话 使用tomcat运行solr时会报错:

Exception starting filter SolrRequestFilter

java.lang.UnsupportedClassVersionError:org/apache/solr/servlet/SolrDispatchFilter: Unsupported major.minor version 51.0 (unable to load class org.apache.solr.servlet.SolrDispatchFilter)

1.3 solr安装及配置步骤

1.将下载下来的solr压缩包解压,解压后的目录结构如下图:

 

1.将solr-4.10.0/example/文件夹下的solr文件夹放到你硬盘中的某个位置。如图:E:\solrHome

2.将solr-4.10.0/example/webapps/目录下的solr.war复制到tomcat/webapp目录下,然后启动tomcatsolr.war会自动解压,webapp目录下将会出现solr目录, 在该目录下找到WEB-INF文件夹,修改文件夹下的web.xml文件,在文件中加入:

<env-entry>

       <env-entry-name>solr/home</env-entry-name>

       <!—此处为第2solr文件夹存放位置 -->

       <env-entry-value>E:\solrHome \solr</env-entry-value>

       <env-entry-type>java.lang.String</env-entry-type>

</env-entry>

3.将solr-4.10.0/example/lib/ext目录下的jar包拷贝到tomcat/webapp/solr/WEB-INF/lib下面。然后重启tomcat,在地址栏里输入http://localhost:8080/solr/admin,将会看到如下界面:

此时说明solr配置成功。

 

2.nutch安装及配置

2.1 nutch下载地址

下载Nutch1.9版本的二进制包,地址:http://www.apache.org/dyn/closer.cgi/nutch/,选择一个站点进入后,下载1.9目录下的apache-nutch-1.9-bin.zip.

 

2.2环境准备

cygwin安装(可以去网上参考安装过程)。由于Nutch是在hadop基础上的,而hadoop是在Linux环境下运行的,故在Windows下安装Nutch,必须安装cygwin来模拟Linux

2.3 nutch安装及配置步骤

 1. 将下载下来的apache-nutch-1.9-bin.zip压缩包解压,解压后的目录结构如下图:

2.修改conf目录下的nutch-site.xml.如下:

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

 

<!-- Put site-specific property overrides in this file. -->

 

<configuration>

         <property>

       <name>http.agent.name</name>

       <value>spider</value>

    </property>

    <property>

       <name>http.agent.version</name>

       <value>1.9</value>

    </property>

    <property>

       <name>http.robots.agents</name>

       <value>spider,*</value>

    </property>

         <property>

                   <name>http.proxy.host</name>

                   <value>10.22.96.29</value>

                   <description>The proxy hostname.  If empty, no proxy is used.</description>

         </property>

 

         <property>

                   <name>http.proxy.port</name>

                   <value>8080</value>

                   <description>The proxy port.</description>

         </property>

</configuration>

注:后两项为网络代理。

 3.nutch-1.9nutch home目录)下添加urls文件夹,其中添加url.txt内容为想要爬取的网址。如:http://wsb.moh.gov.cn/  http://www.cnscn.com.cn/ 等。

 4.修改confregex-urlfilter.txt

注释掉红圈中两行。最下方加上相关规则。

5.Nutchsolr集成:

nutch-1.9/conf/schema-solr4.xml拷贝到solr-4.10.0/solr/collection1/conf/schema.xml,并在<fields>...</fields>间添加一行:

<field name="_version_" type="long" indexed="true" stored="true"/>

重启Solr

 

打开cygwin,切换到nutch运行目录:f:/nutch-1.9

执行抓取命令:bin/crawl urls mydir http://10.72.36.30:8188/solr/ 2
注:需要替换lib目录下的hadoop  jar包。否则报错。

© 著作权归作者所有

共有 人打赏支持
a
粉丝 0
博文 9
码字总数 2245
作品 0
东城
Solr中文高亮位置偏移

我正在使用Solr4.10,配合Ansj来做中文分词。最近发现的问题是,Solr的高亮显示会出现偏移,比如有这样一个句子:具有常识性的计算机知识。如果搜索计算机应该返回: 具有常识性的计算机知识 ...

go2school
2015/08/25
187
0
solr4.10启动(初始化)速度慢

没有做特殊的配制,比较简要的数据,数据量是在10亿条,sorl从启动到可以使用需要在3个小时的样子,就是说tomcat重启下solr就需要用3个小时来加载,但加载后的查询速度会很快。 能不能实现s...

飞思高
2014/12/26
816
6
snakerflow/snaker-springmvc

Introduction Snaker-SpringMVC项目主要是基于springMVC、spring3、hibernate3、snaker框架整合的一个最基本的流程管理模块,方便大家轻松地完成流程引擎的整合 ###整合步骤 ####1).依赖包整...

snakerflow
2014/11/30
0
0
vSphere 5.5 VM整合磁盘失败之—文件被锁定无法访问

vSphere 5.5 VM整合磁盘失败之—文件被锁定无法访问 环境:vSPhere 5.5u3,虚机使用EMC的networker备份 问题现象:在vc上发现,晚上经过networker的备份之后,虚机提示需要整合磁盘 解决前相...

Makka_Pakka
07/06
0
0
白俊遥/thinkphp-bjyadmin

创建 QQ 群及捐赠渠道 链接 博客:http://baijunyao.com github:https://github.com/baijunyao/thinkphp-bjyadmin oschina:http://git.oschina.net/shuaibai123/thinkphp-bjyadmin 简介 使......

白俊遥
2016/06/30
0
0

没有更多内容

加载失败,请刷新页面

加载更多

初级开发-编程题

` public static void main(String[] args) { System.out.println(changeStrToUpperCase("user_name_abc")); System.out.println(changeStrToLowerCase(changeStrToUpperCase("user_name_abc......

小池仔
今天
6
0
现场看路演了!

HiBlock
昨天
16
0
Rabbit MQ基本概念介绍

RabbitMQ介绍 • RabbitMQ是一个消息中间件,是一个很好用的消息队列框架。 • ConnectionFactory、Connection、Channel都是RabbitMQ对外提供的API中最基本的对象。Connection是RabbitMQ的s...

寰宇01
昨天
9
0
官方精简版Windows10:微软自己都看不过去了

微软宣布,该公司正在寻求解决方案,以减轻企业客户的Windows 10规模。该公司声称,企业客户下载整个Windows 10文件以更新设备既费钱又费时。 微软宣布,该公司正在寻求解决方案,以减轻企业...

linux-tao
昨天
19
0
TypeScript基础入门之JSX(二)

转发 TypeScript基础入门之JSX(二) 属性类型检查 键入检查属性的第一步是确定元素属性类型。 内在元素和基于价值的元素之间略有不同。 对于内部元素,它是JSX.IntrinsicElements上的属性类型...

durban
昨天
12
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部