文档章节

solr4.10与nutch1.9整合

a
 asd121213
发布于 2015/04/23 22:35
字数 704
阅读 43
收藏 0
点赞 0
评论 0

Solr4.10nutch1.9整合(win7

1. solr安装及配置

1.1 solr下载地址

http://lucene.apache.org/solr/

1.2环境准备

Tomcat7 + jdk1.7 + solr4.10

注:solr 4.8及以上必须要jdk1.7或者以上才能正确编译 如果使用jdk1.6或者以下的话 使用tomcat运行solr时会报错:

Exception starting filter SolrRequestFilter

java.lang.UnsupportedClassVersionError:org/apache/solr/servlet/SolrDispatchFilter: Unsupported major.minor version 51.0 (unable to load class org.apache.solr.servlet.SolrDispatchFilter)

1.3 solr安装及配置步骤

1.将下载下来的solr压缩包解压,解压后的目录结构如下图:

 

1.将solr-4.10.0/example/文件夹下的solr文件夹放到你硬盘中的某个位置。如图:E:\solrHome

2.将solr-4.10.0/example/webapps/目录下的solr.war复制到tomcat/webapp目录下,然后启动tomcatsolr.war会自动解压,webapp目录下将会出现solr目录, 在该目录下找到WEB-INF文件夹,修改文件夹下的web.xml文件,在文件中加入:

<env-entry>

       <env-entry-name>solr/home</env-entry-name>

       <!—此处为第2solr文件夹存放位置 -->

       <env-entry-value>E:\solrHome \solr</env-entry-value>

       <env-entry-type>java.lang.String</env-entry-type>

</env-entry>

3.将solr-4.10.0/example/lib/ext目录下的jar包拷贝到tomcat/webapp/solr/WEB-INF/lib下面。然后重启tomcat,在地址栏里输入http://localhost:8080/solr/admin,将会看到如下界面:

此时说明solr配置成功。

 

2.nutch安装及配置

2.1 nutch下载地址

下载Nutch1.9版本的二进制包,地址:http://www.apache.org/dyn/closer.cgi/nutch/,选择一个站点进入后,下载1.9目录下的apache-nutch-1.9-bin.zip.

 

2.2环境准备

cygwin安装(可以去网上参考安装过程)。由于Nutch是在hadop基础上的,而hadoop是在Linux环境下运行的,故在Windows下安装Nutch,必须安装cygwin来模拟Linux

2.3 nutch安装及配置步骤

 1. 将下载下来的apache-nutch-1.9-bin.zip压缩包解压,解压后的目录结构如下图:

2.修改conf目录下的nutch-site.xml.如下:

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

 

<!-- Put site-specific property overrides in this file. -->

 

<configuration>

         <property>

       <name>http.agent.name</name>

       <value>spider</value>

    </property>

    <property>

       <name>http.agent.version</name>

       <value>1.9</value>

    </property>

    <property>

       <name>http.robots.agents</name>

       <value>spider,*</value>

    </property>

         <property>

                   <name>http.proxy.host</name>

                   <value>10.22.96.29</value>

                   <description>The proxy hostname.  If empty, no proxy is used.</description>

         </property>

 

         <property>

                   <name>http.proxy.port</name>

                   <value>8080</value>

                   <description>The proxy port.</description>

         </property>

</configuration>

注:后两项为网络代理。

 3.nutch-1.9nutch home目录)下添加urls文件夹,其中添加url.txt内容为想要爬取的网址。如:http://wsb.moh.gov.cn/  http://www.cnscn.com.cn/ 等。

 4.修改confregex-urlfilter.txt

注释掉红圈中两行。最下方加上相关规则。

5.Nutchsolr集成:

nutch-1.9/conf/schema-solr4.xml拷贝到solr-4.10.0/solr/collection1/conf/schema.xml,并在<fields>...</fields>间添加一行:

<field name="_version_" type="long" indexed="true" stored="true"/>

重启Solr

 

打开cygwin,切换到nutch运行目录:f:/nutch-1.9

执行抓取命令:bin/crawl urls mydir http://10.72.36.30:8188/solr/ 2
注:需要替换lib目录下的hadoop  jar包。否则报错。

© 著作权归作者所有

共有 人打赏支持
a
粉丝 0
博文 9
码字总数 2245
作品 0
东城
Solr中文高亮位置偏移

我正在使用Solr4.10,配合Ansj来做中文分词。最近发现的问题是,Solr的高亮显示会出现偏移,比如有这样一个句子:具有常识性的计算机知识。如果搜索计算机应该返回: 具有常识性的计算机知识 ...

go2school ⋅ 2015/08/25 ⋅ 0

solr4.10启动(初始化)速度慢

没有做特殊的配制,比较简要的数据,数据量是在10亿条,sorl从启动到可以使用需要在3个小时的样子,就是说tomcat重启下solr就需要用3个小时来加载,但加载后的查询速度会很快。 能不能实现s...

飞思高 ⋅ 2014/12/26 ⋅ 6

snakerflow/snaker-springmvc

Introduction Snaker-SpringMVC项目主要是基于springMVC、spring3、hibernate3、snaker框架整合的一个最基本的流程管理模块,方便大家轻松地完成流程引擎的整合 ###整合步骤 ####1).依赖包整...

snakerflow ⋅ 2014/11/30 ⋅ 0

struts + spring + hibernate 不太理解这种搭配,请指点一下。

struts + spring + hibernate 整合这是到底什么意思嘛?struts 是一个java的web开发框架,spring也是,为什么很多时候总是struts+spring ,是不是把这两个框架整合?如何整合开发? 使用php...

hstaewg ⋅ 2015/08/29 ⋅ 5

白俊遥/thinkphp-bjyadmin

创建 QQ 群及捐赠渠道 链接 博客:http://baijunyao.com github:https://github.com/baijunyao/thinkphp-bjyadmin oschina:http://git.oschina.net/shuaibai123/thinkphp-bjyadmin 简介 使......

白俊遥 ⋅ 2016/06/30 ⋅ 0

ZHENFENGSHISAN/perfect-ssm

Quick Start 项目简介 ssm系列 ssm-demo:Spring+SpringMVC+Mybatis+easyUI整合 perfect-ssm:RESTful API+redis缓存 ssm-cluster:前后端分离+集群部署 ssm-dubbo:dubbo服务化 ssm-micro-se......

ZHENFENGSHISAN ⋅ 2017/09/18 ⋅ 0

ThinkPHP 常用功能和 SDK 合集--thinkphp-bjyadmin

简介 使用 thinkphp 开发项目的过程中把一些常用的功能或者第三方 sdk 整合好;开源供亲们参考; 这些都是经过线上运营考验的;无毒害可以免费放心折腾使用;只要不会某一天找到我说因为借鉴了...

白俊遥 ⋅ 2017/09/01 ⋅ 2

【MyBatis框架】mybatis和spring整合

spring和mybatis整合 1.整合思路 需要spring通过单例方式管理SqlSessionFactory。 spring和mybatis整合生成代理对象,使用SqlSessionFactory创建SqlSession。(spring和mybatis整合自动完成)...

Mysoft ⋅ 2015/09/21 ⋅ 0

Confluence 6 数据库整合的限制

数据库整合的限制 注意: Confluence 自带的 XML 方式导出方法并不适用于备份和整合大数据集。这里有一些第三方的数据库工具你可以使用能够帮助你对大数据集进行备份和整合。如果你在选择正确...

honeymose ⋅ 06/05 ⋅ 0

Mozilla:Linux 版火狐 46.0 浏览器将集成 GTK3

稿源:cnbeta 目前Linux版本Firefox 45.0浏览器,未能整合GTK3。现在我们获悉,Mozilla计划在Firefox 46.0浏览器当中进行整合。目前,Mozilla已经在测试Firefox 46.0 beta浏览器,正式版将在...

oschina ⋅ 2016/03/13 ⋅ 10

没有更多内容

加载失败,请刷新页面

加载更多

下一页

行政区划代码转为字典形式

原数据为: http://www.mca.gov.cn/article/sj/xzqh/2018/201804-12/201804-06041553.html 手动替换了一下格式,并使用下面的代码处理. # 输入格式s = """110000:北京市110101:东城区1101...

漫步海边小路 ⋅ 20分钟前 ⋅ 0

android apk 签名

创建key,需要用到keytool.exe (位于C:\Program Files\Java\jdk1.6.0_10\bin目录下),使用产生的key对apk签名用到的是jarsigner.exe (位于C:\Program Files\Java\jdk1.6.0_10\bin目录下),把...

国仔饼 ⋅ 29分钟前 ⋅ 0

springcloud+jps+mybatis多数据库配置

多数据库配置 配置我们目录结构设置: config ---datasource ----jpa ----mybatis ----redis Datasource中是数据的相关配置 Jap中是springDatajpa的相关配置 Mybatis中是mybatis的相关配置 ...

大-智-若-愚 ⋅ 36分钟前 ⋅ 0

Spring mvc HandlerMapping 实现机制

概述 当DispatcherServlet接受到客户端的请求后,SpringMVC 通过 HandlerMapping 找到请求的Controller。 HandlerMapping 在这里起到路由的作用,负责找到请求的Controller。 Spring MVC 默认...

轨迹_ ⋅ 39分钟前 ⋅ 0

JavaScript零基础入门——(十)JavaScript的DOM基础

JavaScript零基础入门——(十)JavaScript的DOM基础 欢迎大家回到我们的JavaScript零基础入门,上一节课,我们了解了JavaScript中的函数,这一节课,我们来了解一下JavaScript的DOM。 第一节...

JandenMa ⋅ 今天 ⋅ 0

Weex起步

本教程假设你已经在你的本地环境安装了node 其实weex起步教程在 https://github.com/lilugirl/incubator-weex 项目说明文件中都已经有了,但为了有些同学看到英文秒变文盲,所以这里我重新写...

lilugirl ⋅ 今天 ⋅ 0

Jenkins实践1 之安装

1 下载 http://mirrors.jenkins.io/war/latest/jenkins.war 2 启动 java -jar jenkins.war 前提:安装jdk并配置环境变量 启动结果节选: ************************************************......

晨猫 ⋅ 今天 ⋅ 0

组合数学 1-2000 中,能被6或10整除的数的个数

1--2000 中,能被6或10整除的数的个数 利用集合的性质 能被6整除的个数 2000/6 = 333 能被10整除的个数 2000/10 = 200 能被6和10整除的个数 2000/30 = 66 能被6或10整除的个数 333+200-66 =...

阿豪boy ⋅ 今天 ⋅ 0

一篇文章学懂Shell脚本

Shell脚本,就是利用Shell的命令解释的功能,对一个纯文本的文件进行解析,然后执行这些功能,也可以说Shell脚本就是一系列命令的集合。 Shell可以直接使用在win/Unix/Linux上面,并且可以调用...

Jake_xun ⋅ 今天 ⋅ 0

大数据工程师需要精通算法吗,要达到一个什么程度呢?

机器学习是人工智能的一个重要分支,而机器学习下最重要的就是算法,本文讲述归纳了入门级的几个机器学习算法,加大数据学习群:716581014一起加入AI技术大本营。 1、监督学习算法 这个算法由...

董黎明 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部