文档章节

Heritrix爬虫

szu_吴鹏
 szu_吴鹏
发布于 2014/03/20 23:39
字数 366
阅读 147
收藏 5


在eclipse工程搞好了代码之后,其中有一个.properties文件,是配置登陆名和密码,还有侦听的端口号的。

代码稍后弄好放CSDN,会在后面给链接。

之后在浏览器中,输入如下:

Heritrix里,一个任务对应着一个描述文件,默认的描述文件名称是order.xml。描述文件中记录着Heritrix运行的时候所需要的所有信息,例如抓取的时候线程的最大数量、连接超时的时候最长等待时间等等。这里就创建一个默认的模版。

其中的Seeds是指抓取任务的起始点,因为每次抓取的时候,都需要从一个起始点开始抓,在得到了起始点的信息之后,就可以分析出新的链接地址,把它加入到抓取队列中,然后循环抓取,重复这个过程,最后把所有的链接都分析完毕。这里的种子地址也可以输入多个不同的网站抓。

描述信息的名字还得大写开头。

设置规则

设置好版本和本地的ip

这样就创建好抓取的任务了

抓取完了之后,可以在本地的工程下,看到一个jobs的文件,这里就是抓取的文件,如html、图片等。

接下来就可以对这里数据进行解析了。



© 著作权归作者所有

szu_吴鹏
粉丝 9
博文 11
码字总数 6755
作品 0
深圳
程序员
私信 提问
web爬虫--Heritrix

Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,...

匿名
2008/09/14
51.1K
4
Heritrix抓取新浪微博

最近想通过爬虫抓取新浪微博的信息,前些日子使用MetaSeeker抓取了很具有规范的微博信息。这两天了解到了一个新的工具,Heritrix。 由于我刚刚配置好heritrix,对heritrix也不熟悉。想请教下...

司徒春运
2011/07/26
6.2K
5
怎么把 Heritrix 后台整合到web项目中并且能改善Heritrix爬虫的速度

怎么把 Heritrix 后台整合到web项目中并且能改善Heritrix爬虫的速度,能用改善源代码吗

AuroraTan
2016/10/10
502
1
在Eclipse中配置Heritrix

开源爬虫: Heritrix 1.14.4 安装/使用 Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...

玫瑰情书
2014/04/22
2.4K
2
Heritrix这个爬虫框架用的公司多不多,Heritrix好用不??

Heritrix这个爬虫框架用的公司多不多,Heritrix好用不??

知行合一1
2016/06/29
643
0

没有更多内容

加载失败,请刷新页面

加载更多

带出7个“师弟”,支付宝BASIC College的辅导员是个伪90后

文/电商在线 朱婷 “我的花名是改之,不是‘有则改之无则加勉’的改之,而是‘杨过,字改之’的那个改之。”一见面,他对自己花名的介绍,就让人耳目一新。至于为什么要用杨过的字给自己起名...

阿里云云栖社区
22分钟前
2
0
一次性搞清楚equals和hashCode

前言 在程序设计中,有很多的“公约”,遵守约定去实现你的代码,会让你避开很多坑,这些公约是前人总结出来的设计规范。 Object类是Java中的万类之祖,其中,equals和hashCode是2个非常重要...

编程SHA
22分钟前
1
0
kibana 性能监控 apm

启动本地节点:nohup ./apm-server -c apm-server.yml -e weblogic 12 性能监控 修改 wls12213/user_projects/domains/base_domain/startWebLogic.sh 文件,添加如下内容 export JAVA_OPTION......

internetafei
24分钟前
1
0
给指定的某个commit号加tag并推送

给指定的某个commit号加tag 打tag不必要在head之上,也可在之前的版本上打,这需要你知道某个提交对象的校验和(通过git log获取,取校验和的前几位数字即可)。 git tag -a v1.2 9fceb02 -m...

dragon_tech
24分钟前
1
0
等保2.0来了 | 网站被黑,还要被处罚,为什么背锅的总是我?

“净网2019”专项行动开展以来,四川公安网安部门查处了一批不履行网络安全管理义务的网络运营者,其中包括不履行网络安全保护义务的高校、政府机关、企业和单位均受到了处罚! ▶ 宜宾学院因...

亚洲诚信
26分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部