过节三天,没有安排长途旅游,除了带女儿出去活动一下,终于有点时间写点业余代码了。 WebMagic这次终于有比较大的重构,其实要感谢英语培训班,因为大部分代码都是女儿上课的时候完成的。她...
这是0.5.0新增的功能,目前仍在开发和测试中,欢迎提出意见。 目前的计划是:提供JMX API,可以使用JConsole等工具连接,然后在外部提供一个Web项目,可以在Web页面上进行监控。欢迎去githu...
1.1 WebMagic的设计思想 本文是WebMagic文档的一部分。系列文章写完后,会整合到WebMagic新版文档中。 1. 一个框架,一个领域 一个好的框架必然凝聚了领域知识。WebMagic的设计参考了业界最优...
本文是WebMagic文档的一部分。系列文章写完后,会整合到WebMagic新版文档中。 3. 基本的爬虫 3.1 实现PageProcessor 在WebMagic里,实现一个基本的爬虫只需要编写一个类,实现PageProcessor...
WebMagic使用说明-安装篇 本文是WebMagic文档的一部分。系列文章写完后,会整合到WebMagic新版文档中。 1. 使用WebMagic WebMagic主要包含两个jar包:webmagic-core-{version}.jar和webmagi...
WebMagic之前具有基本的分布式功能,可以将一个Spider部署到多台机器上,并通过Redis来管理URL,达到多机合作抓取的目标。 我在WebMagic-Avalon里计划完成一个管理后台,通过这个后台可以新建...
WebMagic Avalon是一个爬虫配置和管理的后台,目标是减少开发量,打造一个灵活构建、便于监控和管理的爬虫后台。
WebMagic in Action WebMagic是一个简单灵活、便于二次开发的爬虫框架。除了可以便捷的实现一个爬虫,WebMagic还提供多线程功能,以及基本的分布式功能。 你可以直接使用WebMagic进行爬虫开发...
新版文档地址http://webmagic.io/docs/,此手册已不再更新。
在webmagic的多线程抓取中有一个比较麻烦的问题:当Scheduler拿不到url的时候,不能立即退出,需要等到没抓完的线程都运行完毕,没有新url产生时,才能退出。之前使用Thread.sleep来实现,当...
一直想在webmagic中加入一门自定义语言(领域特定语言,简称DSL),但是实在无力从语法解析层开始写起。尝试过在XPath上做文章,后来又觉得太难过了。今天又聊到这个话题,想到当年接触过的Rub...
0.4.0已发布,新闻:http://www.oschina.net/news/45720/webmagic-0-4-0 webmagic 0.4.0将于本周内发布,新增特性: 大幅优化下载效率 升级HttpClient到4.3.1,重写了HttpClientDownloader的...
早在开始开发webmagic之前,就一直在思考,如何让爬虫的描述变得简单? 单条表达式描述一个抽取规则的诱惑是相当大的,这样子注解、配置、动态生成,都非常容易展开了。有个朋友做过一个管理...
webmagic上线之后,因为灵活性很强,得到了一些爬虫老手的欢迎,但是对于新手来说可能稍微摸不着头脑,我的需求是这样子,什么模块化,什么灵活性,但是看了半天,我也不知道怎么解决我的问题...
在抓取一些新闻、博客类页面时,我们会遇到这样的需求:有些文章会分成几页显示,每页都是不同的HTML页面,而我们最终想要的数据,肯定是一个整合好的结果。那么,如何把这些分页显示的文章整...
今天有个网友在博客回帖,能不能用注解来写一个爬虫?想了想,因为Javaer总习惯结果有个对象Model(我在自己用的时候也是这样),ResultItems的key-value形式难免会有点麻烦,何不将抽取和Mod...
没有更多内容
加载失败,请刷新页面
文章删除后无法恢复,确定删除此文章吗?
动弹删除后,数据将无法恢复
评论删除后,数据将无法恢复