文档章节

Heritrix爬虫

szu_吴鹏
 szu_吴鹏
发布于 2014/03/20 23:39
字数 366
阅读 145
收藏 5


在eclipse工程搞好了代码之后,其中有一个.properties文件,是配置登陆名和密码,还有侦听的端口号的。

代码稍后弄好放CSDN,会在后面给链接。

之后在浏览器中,输入如下:

Heritrix里,一个任务对应着一个描述文件,默认的描述文件名称是order.xml。描述文件中记录着Heritrix运行的时候所需要的所有信息,例如抓取的时候线程的最大数量、连接超时的时候最长等待时间等等。这里就创建一个默认的模版。

其中的Seeds是指抓取任务的起始点,因为每次抓取的时候,都需要从一个起始点开始抓,在得到了起始点的信息之后,就可以分析出新的链接地址,把它加入到抓取队列中,然后循环抓取,重复这个过程,最后把所有的链接都分析完毕。这里的种子地址也可以输入多个不同的网站抓。

描述信息的名字还得大写开头。

设置规则

设置好版本和本地的ip

这样就创建好抓取的任务了

抓取完了之后,可以在本地的工程下,看到一个jobs的文件,这里就是抓取的文件,如html、图片等。

接下来就可以对这里数据进行解析了。



© 著作权归作者所有

共有 人打赏支持
szu_吴鹏
粉丝 9
博文 11
码字总数 6755
作品 0
深圳
程序员
web爬虫--Heritrix

Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,...

匿名
2008/09/14
51.1K
4
怎么把 Heritrix 后台整合到web项目中并且能改善Heritrix爬虫的速度

怎么把 Heritrix 后台整合到web项目中并且能改善Heritrix爬虫的速度,能用改善源代码吗

AuroraTan
2016/10/10
377
1
java爬虫系列(一)——爬虫入门

爬虫框架介绍 java爬虫框架非常多,比如较早的有Heritrix,轻量级的crawler4j,还有现在最火的WebMagic。 他们各有各的优势和劣势,我这里顺便简单介绍一下吧。 Heritrix 优势 java的第一批爬...

Mr_OOO
2017/12/31
0
0
Heritrix这个爬虫框架用的公司多不多,Heritrix好用不??

Heritrix这个爬虫框架用的公司多不多,Heritrix好用不??

sca7
2016/06/29
259
0
[IBM DW] 利用 Heritrix 构建特定站点爬虫

Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Ec...

红薯
2010/12/02
2.2K
2

没有更多内容

加载失败,请刷新页面

加载更多

cacti监控安装

cacti是用PHP实现的一个软件,它用snmp服务获取数据,然后用rrdtool存储和更新数据,并生成图表展示。比较适合用于交换机、路由器的网络监控,插件众多,可图示化显示网络状况。 cacti官方推...

hiwill
28分钟前
1
0
shell特殊符号、cut、sort、uniq、wc、tee、tr、split命令

10月15日任务 8.10 shell特殊符号cut命令 8.11 sort_wc_uniq命令 8.12 tee_tr_split命令 8.13 shell特殊符号下 cut 命令 cut作用:截取字符串 用法如下:cat /etc/passwd |head -2 |cut -d ...

hhpuppy
57分钟前
1
0
Springboot实现filter拦截token验证和跨域

背景 web验证授权合法的一般分为下面几种 1使用session作为验证合法用户访问的验证方式 使用自己实现的token 使用OCA标准 在使用API接口授权验证时,token是自定义的方式实现起来不需要引入其...

funnymin
今天
3
0
linux使用ntfs-3g操作ntfs格式硬盘

Linux内核目前只支持对微软NTFS文件系统的读取。 NTFS-3G 是微软 NTFS 文件系统的一个开源实现,同时支持读和写。NTFS-3G 开发者使用 FUSE 文件系统来辅助开发,同时对可移植性有益。 安装 ...

linuxprobe16
今天
2
0
kubeadm部署kubernetes集群

一、环境要求 这里使用RHEL7.5 master、etcd:192.168.10.101,主机名:master node1:192.168.10.103,主机名:node1 node2:192.168.10.104,主机名:node2 所有机子能基于主机名通信,编辑...

人在艹木中
今天
15
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部