文档章节

Heritrix爬虫

szu_吴鹏
 szu_吴鹏
发布于 2014/03/20 23:39
字数 366
阅读 143
收藏 5


在eclipse工程搞好了代码之后,其中有一个.properties文件,是配置登陆名和密码,还有侦听的端口号的。

代码稍后弄好放CSDN,会在后面给链接。

之后在浏览器中,输入如下:

Heritrix里,一个任务对应着一个描述文件,默认的描述文件名称是order.xml。描述文件中记录着Heritrix运行的时候所需要的所有信息,例如抓取的时候线程的最大数量、连接超时的时候最长等待时间等等。这里就创建一个默认的模版。

其中的Seeds是指抓取任务的起始点,因为每次抓取的时候,都需要从一个起始点开始抓,在得到了起始点的信息之后,就可以分析出新的链接地址,把它加入到抓取队列中,然后循环抓取,重复这个过程,最后把所有的链接都分析完毕。这里的种子地址也可以输入多个不同的网站抓。

描述信息的名字还得大写开头。

设置规则

设置好版本和本地的ip

这样就创建好抓取的任务了

抓取完了之后,可以在本地的工程下,看到一个jobs的文件,这里就是抓取的文件,如html、图片等。

接下来就可以对这里数据进行解析了。



© 著作权归作者所有

共有 人打赏支持
szu_吴鹏
粉丝 9
博文 11
码字总数 6755
作品 0
深圳
程序员
web爬虫--Heritrix

Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,...

匿名
2008/09/14
51.1K
4
怎么把 Heritrix 后台整合到web项目中并且能改善Heritrix爬虫的速度

怎么把 Heritrix 后台整合到web项目中并且能改善Heritrix爬虫的速度,能用改善源代码吗

AuroraTan
2016/10/10
377
1
java爬虫系列(一)——爬虫入门

爬虫框架介绍 java爬虫框架非常多,比如较早的有Heritrix,轻量级的crawler4j,还有现在最火的WebMagic。 他们各有各的优势和劣势,我这里顺便简单介绍一下吧。 Heritrix 优势 java的第一批爬...

Mr_OOO
2017/12/31
0
0
[IBM DW] 利用 Heritrix 构建特定站点爬虫

Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Ec...

红薯
2010/12/02
2.2K
2
Heritrix抓取新浪微博

最近想通过爬虫抓取新浪微博的信息,前些日子使用MetaSeeker抓取了很具有规范的微博信息。这两天了解到了一个新的工具,Heritrix。 由于我刚刚配置好heritrix,对heritrix也不熟悉。想请教下...

司徒春运
2011/07/26
6.1K
5

没有更多内容

加载失败,请刷新页面

加载更多

下一页

windbg学习记录

我开始熟练使用windbg是从帮助手册开始的,也就是.hh命令。 就像学习windows开发从msdn开始一样,微软的产品虽然不开源,但是文档做的是相当的好。然而那些开源的东西呢?开源的竞争力其实就...

simpower
17分钟前
0
0
学习scala的网站汇总

https://www.codacy.com/blog/how-to-learn-scala/

Littlebox
19分钟前
0
0
配置本地的cloud9开发环境

前言 说到在线IDE开发环境,cloud9是不能绕过的,cloud9支持很多语言,默认支持的就有Node.js,Python,Ruby,PHP,Go,更逆天的是,他还支持数据库,包括MySQL,MongoDB,Redis,SQLite。但...

Kefy
22分钟前
1
0
springcloud应用程序上下文层次结构

如果您从SpringApplication或SpringApplicationBuilder构建应用程序上下文,则将Bootstrap上下文添加为该上下文的父级。这是一个Spring的功能,即子上下文从其父进程继承属性源和配置文件,因...

itcloud
27分钟前
0
0
新程序员最爱的免费资源

简评:国外美女程序员推荐了她自己用过的一些免费资源,对新手比较友好的那种。 原作者 Ali Spittel,是个美女程序员,以下这些资源都是她自己试过的。以下「我」代表 Ali Spittel。 学 HTML...

极光推送
30分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部