文档章节

Nutch1.9安装

18号
 18号
发布于 2014/11/13 17:35
字数 316
阅读 2.5K
收藏 9

一、  Nutch安装并整合到Solr

 

1、下载并解压Nutch(此处使用版本1.9)      http://nutch.apache.org/

 

2、修改apache-nutch-1.9/conf/nutch-site.xml

<property>

<name>http.agent.name</name>

<value>My Nutch Spider</value>

</property>

 

3、添加需要爬取的urls种子,创建apache-nutch-1.9/urls/seed.txt:

此处添加一条url(如:http://www.oschina.net/

 

4、Nutch与Solr整合需要替换Solr Home中的Schema.xml

首先做好备份:

mv  solr_home/solr/collection1/conf/schema.xml solr_home/solr/collection1/conf/schema.xml.org

 

                     将nutch中的schema-solr4.xml copy到solr_home中,如下:

cp  apache-nutch-1.9/conf/schema-solr4.xml solr_home/solr/collection1/conf/schema.xml

 

 

 

5、修改solr_home/solr/collection1/conf/schema.xml,

    

<field name="id"下面加上

<field name="_version_" type="long" indexed="true" stored="true"/>

    

 

                            由于覆盖了之前配置好的IK分词器。所以需要重新配置:

<types>中增加如下内容:

            <fieldType name="text_ik" class="solr.TextField">

<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

                   </fieldType>

                  

将需要用到IK分词的字段的type值修改以上定义的name

                               <field name="content" type="text_ik" stored="true" indexed="true"/>

<field name="title" type="text_ik" stored="true" indexed="true"/>

<field name="text" type="text_ik" stored="false" indexed="true" multiValued="true"/>

<field name="anchor" type="text_ik" stored="true" indexed="true"/>

 

 

到此处配置完成。

测试爬取:

bin/crawl urls/ crawldb/ http://localhost:8080/solr/ 1

当完成后,打开solr的管理界面,点击query将会看到nutch爬取的数据

© 著作权归作者所有

18号

18号

粉丝 21
博文 20
码字总数 7993
作品 0
成都
后端工程师
私信 提问

暂无文章

0121 spring-boot-redis的使用

redis是什么呢?redis,属于NoSQL的一种,在互联网时代,起到加速系统的作用。 redis是一种内存数据库,支持7种数据类型的存储,性能1S 10w次读写; redis提供的简单的事务保证了高并发场景下...

李福春carter
21分钟前
28
0
redis的有序集合研究

假设执行下面的操作 jedis.zadd("myzset", System.currentTimeMillis(), "An error is returned when key exists but does not hold a sorted set.\r\n" + "\r\n" ......

强子大叔的码田
39分钟前
33
0
如何防止favicon.ico请求?

我没有favicon.ico,但IE总是提出请求。 是否可以阻止浏览器从我的网站请求favicon? 也许HTML标题中有一些META-TAG? #1楼 你不能。 您所能做的就是使该图像尽可能小,并在将来设置一些缓存...

技术盛宴
40分钟前
34
0
如何在Subversion中返回旧版本的代码?

我正和一位朋友一起开展一个项目,我想回到我们代码的旧版本并将其设置为当前版本。 我该怎么做? 我在vs08上使用“anksvn”。 我在我的电脑上有我想要的版本,但提交失败了; 我得到的消息是...

javail
55分钟前
62
0
全网最全RabbitMQ总结,别再说你不会RabbitMQ

RabbitMQ入门教程 当初我学RabbitMQ的时候,第一时间就上GitHub找相应的教程,但是令我很失望的是没有找到,Spring,Mybatis之类的教程很多,而RabbitMQ的教程几乎找不到,看的最多的就是朱小...

erlieStar
今天
52
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部