文档章节

Apache Nutch 1.13使用备注

lxbzmy
 lxbzmy
发布于 2017/06/02 10:08
字数 131
阅读 49
收藏 0

下载apache-nutch-1.13-bin.zip使用。

和好多文档提到的不同,它默认只开启了ealsticsearch的索引,所以不论你怎么执行 nutch solrIndex都会报错。你需要在 conf/nutch-site.xml 的 ** <name>plugin.includes</name>**里面添加 indexer-solr 删除 indexer-elastic 然后那些文档就好使了。

当然,如果直接使用的就是elastich search,只需要把<name>elastic.host</name><name>elastic.cluster</name> 配置上就好使了。

两个样本指令

bin/nutch index  crawl/crawldb/ -linkdb crawlinkdb/ crawl/segments/* -filter -normalize -deleteGone

bin/crawl -i  urls/ crawl/  2

© 著作权归作者所有

lxbzmy
粉丝 40
博文 39
码字总数 12963
作品 0
太原
架构师
私信 提问
Apache Nutch 1.1.3 发布,Web 爬虫

Apache Nutch 项目管理委员宣布 Apache Nutch 1.13 发布,建议所有当前的用户和 1.X 系列的开发人员升级到此版本。 Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache...

王练
2017/04/03
1K
1
Nutch2.1+mysql+solr3.6.1安装部署

参考资料:http://nlp.solutions.asia/?p=180#tab-3 1、mysql 数据库配置 linux mysql安装步骤省略。 创建数据库与表 2、安装nutch2.1 A、nutch下载地址:http://apache.etoak.com/nutch/2.1...

萝卜丁辣子
2012/10/11
10.2K
10
apache-nutch-1.9项目源码编译

安装apache-ant-1.9.7 2. 下载apache-nutch-1.9 网址http://archive.apache.org/dist/nutch/(http://http://archive.apache.org/dist/nutch/) 3. 将项目放到D:zx168apache-nutch-1.9路径下 ......

zcl111
2016/07/27
31
0
Nutch 教程

介绍 Apache Nutch是一个用Java编写的开源网络爬虫。通过它,我们就能够自动地找到网页中的超链接,从而极大地减轻了维护工作的负担,例如检查那些已经断开了的链接,或是对所有已经访问过的...

2ndhimmel
2013/01/31
35.3K
7
将nutch2.3的bin/crawl脚本改写为java类

将nutch2.3的bin/crawl脚本改写为java类 标签: nutch [TOC] nutch1.8以后,以前的主控代码类没了,只剩下对应的控制脚本,感觉在IDEA里面调试不方便,所以我了解了下shell脚本,根据nutch2....

brianway
2016/01/19
1K
0

没有更多内容

加载失败,请刷新页面

加载更多

哪些情况下适合使用云服务器?

我们一直在说云服务器价格适中,具备弹性扩展机制,适合部署中小规模的网站或应用。那么云服务器到底适用于哪些情况呢?如果您需要经常原始计算能力,那么使用独立服务器就能满足需求,因为他...

云漫网络Ruan
53分钟前
3
0
Kafka 2.3 Producer (0.9以后版本适用)

kafka0.9版本以后用java重新编写了producer,废除了原来scala编写的版本。 这里直接使用最新2.3版本,0.9以后的版本都适用。 注意引用的包为:org.apache.kafka.clients.producer import ja...

实时计算
今天
3
0
Java 中的 String 有没有长度限制

转载: https://juejin.im/post/5d53653f5188257315539f9a String是Java中很重要的一个数据类型,除了基本数据类型以外,String是被使用的最广泛的了,但是,关于String,其实还是有很多东西...

低至一折起
今天
14
0
OpenStack 简介和几种安装方式总结

OpenStack :是一个由NASA和Rackspace合作研发并发起的,以Apache许可证授权的自由软件和开放源代码项目。项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。OpenSta...

小海bug
昨天
11
0
DDD(五)

1、引言 之前学习了解了DDD中实体这一概念,那么接下来需要了解的就是值对象、唯一标识。值对象,值就是数字1、2、3,字符串“1”,“2”,“3”,值时对象的特征,对象是一个事物的具体描述...

MrYuZixian
昨天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部