文档章节

Heritrix爬虫

szu_吴鹏
 szu_吴鹏
发布于 2014/03/20 23:39
字数 366
阅读 147
收藏 5


在eclipse工程搞好了代码之后,其中有一个.properties文件,是配置登陆名和密码,还有侦听的端口号的。

代码稍后弄好放CSDN,会在后面给链接。

之后在浏览器中,输入如下:

Heritrix里,一个任务对应着一个描述文件,默认的描述文件名称是order.xml。描述文件中记录着Heritrix运行的时候所需要的所有信息,例如抓取的时候线程的最大数量、连接超时的时候最长等待时间等等。这里就创建一个默认的模版。

其中的Seeds是指抓取任务的起始点,因为每次抓取的时候,都需要从一个起始点开始抓,在得到了起始点的信息之后,就可以分析出新的链接地址,把它加入到抓取队列中,然后循环抓取,重复这个过程,最后把所有的链接都分析完毕。这里的种子地址也可以输入多个不同的网站抓。

描述信息的名字还得大写开头。

设置规则

设置好版本和本地的ip

这样就创建好抓取的任务了

抓取完了之后,可以在本地的工程下,看到一个jobs的文件,这里就是抓取的文件,如html、图片等。

接下来就可以对这里数据进行解析了。



© 著作权归作者所有

共有 人打赏支持
szu_吴鹏
粉丝 9
博文 11
码字总数 6755
作品 0
深圳
程序员
私信 提问
web爬虫--Heritrix

Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,...

匿名
2008/09/14
51.1K
4
怎么把 Heritrix 后台整合到web项目中并且能改善Heritrix爬虫的速度

怎么把 Heritrix 后台整合到web项目中并且能改善Heritrix爬虫的速度,能用改善源代码吗

AuroraTan
2016/10/10
502
1
Heritrix抓取新浪微博

最近想通过爬虫抓取新浪微博的信息,前些日子使用MetaSeeker抓取了很具有规范的微博信息。这两天了解到了一个新的工具,Heritrix。 由于我刚刚配置好heritrix,对heritrix也不熟悉。想请教下...

司徒春运
2011/07/26
6.2K
5
在Eclipse中配置Heritrix

开源爬虫: Heritrix 1.14.4 安装/使用 Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...

玫瑰情书
2014/04/22
2.4K
2
Heritrix这个爬虫框架用的公司多不多,Heritrix好用不??

Heritrix这个爬虫框架用的公司多不多,Heritrix好用不??

知行合一1
2016/06/29
643
0

没有更多内容

加载失败,请刷新页面

加载更多

词法分析器flex教程

词法分析器flex教程 flex是基于正则表达式,用于对字符串进行提取和分析的工具。一般情况下,flex常用语编译器前端的词法分析阶段。flex程序读取用户输入的词法单元描述文件,生成lex.yy.c文...

陶小陶
10分钟前
1
0
IntelliJ IDEA 社区版没有 Spring Initializr

RT 解决办法 打开文件 - 设置 - 插件 输入 Spring 找到插件 Spring Assistant 并安装 下载可能会需要一点点时间 . 重启 IDEA 后,新建项目就可以看见 Spring Assistant 选项了...

taadis
12分钟前
0
0
MySQL执行计划 type类型

MySql提供了EXPLAIN语法用来进行查询分析,在SQL语句前加一个"EXPLAIN"即可。 explain select * from t_settlement_settle_order_detail where id = 2; 下面来介绍各个字段: type:连接类型......

ChyiHuang
16分钟前
0
0
mysql遇到的坑

sql_mode=NO_ENGINE_SUBSTITUTION 今天在测试库上发现使用GROUP BY 报错,我使用的mysql5.7 ONLY_FULL_GROUP_BY 对于GROUP BY聚合操作,如果在SELECT中的列、HAVING或者ORDER BY子句的列,没...

事儿爹
27分钟前
1
0
聊聊flink的InternalTimeServiceManager

序 本文主要研究一下flink的InternalTimeServiceManager InternalTimeServiceManager flink-streaming-java_2.11-1.7.0-sources.jar!/org/apache/flink/streaming/api/operators/InternalTim......

go4it
39分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部