加载中
No Magic - 写在WebMagic 0.7.0发布之时

过节三天,没有安排长途旅游,除了带女儿出去活动一下,终于有点时间写点业余代码了。 WebMagic这次终于有比较大的重构,其实要感谢英语培训班,因为大部分代码都是女儿上课的时候完成的。她...

2017/05/29 22:50
1.2W
WebMagic监控方案设计

这是0.5.0新增的功能,目前仍在开发和测试中,欢迎提出意见。 目前的计划是:提供JMX API,可以使用JConsole等工具连接,然后在外部提供一个Web项目,可以在Web页面上进行监控。欢迎去githu...

2014/04/17 08:14
8.4K
WebMagic的设计思想

1.1 WebMagic的设计思想 本文是WebMagic文档的一部分。系列文章写完后,会整合到WebMagic新版文档中。 1. 一个框架,一个领域 一个好的框架必然凝聚了领域知识。WebMagic的设计参考了业界最优...

2014/04/09 18:41
4.5K
WebMagic使用说明-基本的爬虫

本文是WebMagic文档的一部分。系列文章写完后,会整合到WebMagic新版文档中。 3. 基本的爬虫 3.1 实现PageProcessor 在WebMagic里,实现一个基本的爬虫只需要编写一个类,实现PageProcessor...

2014/04/04 15:44
8.4K
WebMagic使用说明-安装篇

WebMagic使用说明-安装篇 本文是WebMagic文档的一部分。系列文章写完后,会整合到WebMagic新版文档中。 1. 使用WebMagic WebMagic主要包含两个jar包:webmagic-core-{version}.jar和webmagi...

2014/04/03 10:53
1.2W
WebMagic-Avalon之分布式实现方案

WebMagic之前具有基本的分布式功能,可以将一个Spider部署到多台机器上,并通过Redis来管理URL,达到多机合作抓取的目标。 我在WebMagic-Avalon里计划完成一个管理后台,通过这个后台可以新建...

2014/03/12 18:12
8.7K
WebMagic Avalon设计草图

WebMagic Avalon是一个爬虫配置和管理的后台,目标是减少开发量,打造一个灵活构建、便于监控和管理的爬虫后台。

2014/02/25 11:56
8.9K
webmagic新版文档(更新中)

WebMagic in Action WebMagic是一个简单灵活、便于二次开发的爬虫框架。除了可以便捷的实现一个爬虫,WebMagic还提供多线程功能,以及基本的分布式功能。 你可以直接使用WebMagic进行爬虫开发...

2014/01/15 14:41
1.4W
webmagic使用手册

新版文档地址http://webmagic.io/docs/,此手册已不再更新。

2013/12/01 20:54
7W
记webmagic一个多线程问题排查和修复的过程

在webmagic的多线程抓取中有一个比较麻烦的问题:当Scheduler拿不到url的时候,不能立即退出,需要等到没抓完的线程都运行完毕,没有新url产生时,才能退出。之前使用Thread.sleep来实现,当...

在webmagic中加入了自定义语言

一直想在webmagic中加入一门自定义语言(领域特定语言,简称DSL),但是实在无力从语法解析层开始写起。尝试过在XPath上做文章,后来又觉得太难过了。今天又聊到这个话题,想到当年接触过的Rub...

2013/11/10 22:39
1.1K
webmagic 0.4.0的特性

0.4.0已发布,新闻:http://www.oschina.net/news/45720/webmagic-0-4-0 webmagic 0.4.0将于本周内发布,新增特性: 大幅优化下载效率 升级HttpClient到4.3.1,重写了HttpClientDownloader的...

2013/11/04 07:42
2K
想要在webmagic中自定义一门爬虫语言

早在开始开发webmagic之前,就一直在思考,如何让爬虫的描述变得简单? 单条表达式描述一个抽取规则的诱惑是相当大的,这样子注解、配置、动态生成,都非常容易展开了。有个朋友做过一个管理...

2013/09/04 15:17
2.1K
玩转webmagic代码之Scheduler

webmagic上线之后,因为灵活性很强,得到了一些爬虫老手的欢迎,但是对于新手来说可能稍微摸不着头脑,我的需求是这样子,什么模块化,什么灵活性,但是看了半天,我也不知道怎么解决我的问题...

2013/08/21 23:54
4.7W
折腾Javadoc笔记

webmagic在代码里用到了大量的中文注释,其实最大的目的是想生成中文的Javadoc。但是中文注释实在太不高级了,在各种编码下还会变成乱码。本着高端大气国际化的思路,还是想把它换成英文,但...

2013/08/17 14:11
1.5K
关于爬虫实现分页的一些思考

在抓取一些新闻、博客类页面时,我们会遇到这样的需求:有些文章会分成几页显示,每页都是不同的HTML页面,而我们最终想要的数据,肯定是一个整合好的结果。那么,如何把这些分页显示的文章整...

2013/08/04 21:54
9.4K
给webmagic加上了注解支持

今天有个网友在博客回帖,能不能用注解来写一个爬虫?想了想,因为Javaer总习惯结果有个对象Model(我在自己用的时候也是这样),ResultItems的key-value形式难免会有点麻烦,何不将抽取和Mod...

2013/08/01 22:58
1.6K
使用Selenium来抓取动态加载的页面

一般的爬虫都是直接使用http协议,下载指定url的html内容,并对内容进行分析和抽取。在我写的爬虫框架webmagic里也使用了HttpClient来完成这样的任务。 但是有些页面是通过js以及ajax动态加载...

2013/07/26 16:48
27.7W
使用webmagic构建一个分布式的爬虫

之前说过,使用webmagic的架构,很容易就可以通过扩展Scheduler构建一个分布式的爬虫。 参考淘宝官方博客的文章快速构建实时抓取集群,构建了一个基于redis的分布式爬虫实现,代码如下: <!...

2013/07/25 08:24
2.3W
webmagic的设计机制及原理-如何开发一个Java爬虫

此文章是webmagic 0.1.0版的设计手册,后续版本的入门及用户手册请看这里:https://github.com/code4craft/webmagic/blob/master/user-manual.md 之前就有网友在博客里留言,觉得webmagic的实...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部