文档章节

solr4.10与nutch1.9整合

a
 asd121213
发布于 2015/04/23 22:35
字数 704
阅读 48
收藏 0

Solr4.10nutch1.9整合(win7

1. solr安装及配置

1.1 solr下载地址

http://lucene.apache.org/solr/

1.2环境准备

Tomcat7 + jdk1.7 + solr4.10

注:solr 4.8及以上必须要jdk1.7或者以上才能正确编译 如果使用jdk1.6或者以下的话 使用tomcat运行solr时会报错:

Exception starting filter SolrRequestFilter

java.lang.UnsupportedClassVersionError:org/apache/solr/servlet/SolrDispatchFilter: Unsupported major.minor version 51.0 (unable to load class org.apache.solr.servlet.SolrDispatchFilter)

1.3 solr安装及配置步骤

1.将下载下来的solr压缩包解压,解压后的目录结构如下图:

 

1.将solr-4.10.0/example/文件夹下的solr文件夹放到你硬盘中的某个位置。如图:E:\solrHome

2.将solr-4.10.0/example/webapps/目录下的solr.war复制到tomcat/webapp目录下,然后启动tomcatsolr.war会自动解压,webapp目录下将会出现solr目录, 在该目录下找到WEB-INF文件夹,修改文件夹下的web.xml文件,在文件中加入:

<env-entry>

       <env-entry-name>solr/home</env-entry-name>

       <!—此处为第2solr文件夹存放位置 -->

       <env-entry-value>E:\solrHome \solr</env-entry-value>

       <env-entry-type>java.lang.String</env-entry-type>

</env-entry>

3.将solr-4.10.0/example/lib/ext目录下的jar包拷贝到tomcat/webapp/solr/WEB-INF/lib下面。然后重启tomcat,在地址栏里输入http://localhost:8080/solr/admin,将会看到如下界面:

此时说明solr配置成功。

 

2.nutch安装及配置

2.1 nutch下载地址

下载Nutch1.9版本的二进制包,地址:http://www.apache.org/dyn/closer.cgi/nutch/,选择一个站点进入后,下载1.9目录下的apache-nutch-1.9-bin.zip.

 

2.2环境准备

cygwin安装(可以去网上参考安装过程)。由于Nutch是在hadop基础上的,而hadoop是在Linux环境下运行的,故在Windows下安装Nutch,必须安装cygwin来模拟Linux

2.3 nutch安装及配置步骤

 1. 将下载下来的apache-nutch-1.9-bin.zip压缩包解压,解压后的目录结构如下图:

2.修改conf目录下的nutch-site.xml.如下:

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

 

<!-- Put site-specific property overrides in this file. -->

 

<configuration>

         <property>

       <name>http.agent.name</name>

       <value>spider</value>

    </property>

    <property>

       <name>http.agent.version</name>

       <value>1.9</value>

    </property>

    <property>

       <name>http.robots.agents</name>

       <value>spider,*</value>

    </property>

         <property>

                   <name>http.proxy.host</name>

                   <value>10.22.96.29</value>

                   <description>The proxy hostname.  If empty, no proxy is used.</description>

         </property>

 

         <property>

                   <name>http.proxy.port</name>

                   <value>8080</value>

                   <description>The proxy port.</description>

         </property>

</configuration>

注:后两项为网络代理。

 3.nutch-1.9nutch home目录)下添加urls文件夹,其中添加url.txt内容为想要爬取的网址。如:http://wsb.moh.gov.cn/  http://www.cnscn.com.cn/ 等。

 4.修改confregex-urlfilter.txt

注释掉红圈中两行。最下方加上相关规则。

5.Nutchsolr集成:

nutch-1.9/conf/schema-solr4.xml拷贝到solr-4.10.0/solr/collection1/conf/schema.xml,并在<fields>...</fields>间添加一行:

<field name="_version_" type="long" indexed="true" stored="true"/>

重启Solr

 

打开cygwin,切换到nutch运行目录:f:/nutch-1.9

执行抓取命令:bin/crawl urls mydir http://10.72.36.30:8188/solr/ 2
注:需要替换lib目录下的hadoop  jar包。否则报错。

© 著作权归作者所有

共有 人打赏支持
a
粉丝 0
博文 9
码字总数 2245
作品 0
东城
私信 提问
solr4.10启动(初始化)速度慢

没有做特殊的配制,比较简要的数据,数据量是在10亿条,sorl从启动到可以使用需要在3个小时的样子,就是说tomcat重启下solr就需要用3个小时来加载,但加载后的查询速度会很快。 能不能实现s...

飞思高
2014/12/26
1K
6
vSphere 5.5 VM整合磁盘失败之—文件被锁定无法访问

vSphere 5.5 VM整合磁盘失败之—文件被锁定无法访问 环境:vSPhere 5.5u3,虚机使用EMC的networker备份 问题现象:在vc上发现,晚上经过networker的备份之后,虚机提示需要整合磁盘 解决前相...

Makka_Pakka
07/06
0
0
springboot从入门到精通教程分享, 深度掌握Springboot实践技术教程

深度掌握Springboot实践技术教程,共22个课时,需要的可回复邮箱。 课程简介 day1 01springboot简介-曾经开发中的问题 02springboot解决的问题-优势以及弊端 03springboot环境准备 04spring...

小小倾听
12/06
0
0
白俊遥/thinkphp-bjyadmin

创建 QQ 群及捐赠渠道 链接 博客:http://baijunyao.com github:https://github.com/baijunyao/thinkphp-bjyadmin oschina:http://git.oschina.net/shuaibai123/thinkphp-bjyadmin 简介 使......

白俊遥
2016/06/30
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Ubuntu18.04 安装MySQL

1.安装MySQL sudo apt-get install mysql-server 2.配置MySQL sudo mysql_secure_installation 3.设置MySQL非root用户 设置原因:配置过程为系统root权限,在构建MySQL连接时出现错误:ERROR...

AI_SKI
今天
2
0
3.6 rc脚本(start方法) 3.7 rc脚本(stop和status方法) 3.8 rc脚本(以daemon方式启动)

3.6-3.7 rc脚本(start、stop和status方法) #!/usr/bin/env python# -*- coding: utf-8 -*-# [@Version](https://my.oschina.net/u/931210) : python 2.7# [@Time](https://my.oschina.......

隐匿的蚂蚁
今天
3
0
Cnn学习相关博客

CNN卷积神经网络原理讲解+图片识别应用(附源码) 笨方法学习CNN图像识别系列 深度学习图像识别项目(中):Keras和卷积神经网络(CNN) 卷积神经网络模型部署到移动设备 使用CNN神经网络进行...

-九天-
昨天
4
0
flutter 底部输入框 聊天输入框 Flexible

想在页面底部放个输入框,结果键盘一直遮住了,原来是布局问题 Widget build(BuildContext context) { return Scaffold( appBar: AppBar( title: Text("评论"), ...

大灰狼wow
昨天
4
0
Kernel I2C子系统

备注:所有图片来源于网络 1,I2C协议: 物理拓扑: I2C总线由两根信号线组成,一条是时钟信号线SCL,一条是数据信号线SDA。一条I2C总线可以接多个设备,每个设备都接入I2C总线的SCL和SDA。I...

yepanl
昨天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部