加载中
webmagic使用手册

新版文档地址http://webmagic.io/docs/,此手册已不再更新。

2013/12/01 20:54
20.2K
WebMagic的设计思想

1.1 WebMagic的设计思想 本文是WebMagic文档的一部分。系列文章写完后,会整合到WebMagic新版文档中。 1. 一个框架,一个领域 一个好的框架必然凝聚了领域知识。WebMagic的设计参考了业界最优...

2014/04/09 18:41
2.4K
WebMagic使用说明-安装篇

WebMagic使用说明-安装篇 本文是WebMagic文档的一部分。系列文章写完后,会整合到WebMagic新版文档中。 1. 使用WebMagic WebMagic主要包含两个jar包:webmagic-core-{version}.jar和webmagi...

2014/04/03 10:53
3.3K
折腾Javadoc笔记

webmagic在代码里用到了大量的中文注释,其实最大的目的是想生成中文的Javadoc。但是中文注释实在太不高级了,在各种编码下还会变成乱码。本着高端大气国际化的思路,还是想把它换成英文,但...

2013/08/17 14:11
612
WebMagic-Avalon之分布式实现方案

WebMagic之前具有基本的分布式功能,可以将一个Spider部署到多台机器上,并通过Redis来管理URL,达到多机合作抓取的目标。 我在WebMagic-Avalon里计划完成一个管理后台,通过这个后台可以新建...

2014/03/12 18:12
5.1K
webmagic新版文档(更新中)

WebMagic in Action WebMagic是一个简单灵活、便于二次开发的爬虫框架。除了可以便捷的实现一个爬虫,WebMagic还提供多线程功能,以及基本的分布式功能。 你可以直接使用WebMagic进行爬虫开发...

2014/01/15 14:41
5.6K
webmagic的设计机制及原理-如何开发一个Java爬虫

此文章是webmagic 0.1.0版的设计手册,后续版本的入门及用户手册请看这里:https://github.com/code4craft/webmagic/blob/master/user-manual.md 之前就有网友在博客里留言,觉得webmagic的实...

玩转webmagic代码之Scheduler

webmagic上线之后,因为灵活性很强,得到了一些爬虫老手的欢迎,但是对于新手来说可能稍微摸不着头脑,我的需求是这样子,什么模块化,什么灵活性,但是看了半天,我也不知道怎么解决我的问题...

2013/08/21 23:54
13.8K
webmagic 0.4.0的特性

0.4.0已发布,新闻:http://www.oschina.net/news/45720/webmagic-0-4-0 webmagic 0.4.0将于本周内发布,新增特性: 大幅优化下载效率 升级HttpClient到4.3.1,重写了HttpClientDownloader的...

2013/11/04 07:42
1K
Jsoup代码解读之七-实现一个CSS Selector

当当当!终于来到了Jsoup的特色:CSS Selector部分。selector也是我写的爬虫框架webmagic开发的一个重点。附上一张street fighter的图,希望以后webmagic也能挑战Jsoup! select机制 Jsoup的s...

2013/08/30 21:23
2.7K
如何发起一个开源项目

最近有朋友问我,想要做一个开源项目,但是不知道做什么好。WebMagic虽然还很小,但是写的过程中总会有些感悟,提出来跟大家分享。 开源要有需求 “创始人”、“作者”这样的光环吸引了不少人...

2013/11/30 09:43
1K
记webmagic一个多线程问题排查和修复的过程

在webmagic的多线程抓取中有一个比较麻烦的问题:当Scheduler拿不到url的时候,不能立即退出,需要等到没抓完的线程都运行完毕,没有新url产生时,才能退出。之前使用Thread.sleep来实现,当...

WebMagic使用说明-基本的爬虫

本文是WebMagic文档的一部分。系列文章写完后,会整合到WebMagic新版文档中。 3. 基本的爬虫 3.1 实现PageProcessor 在WebMagic里,实现一个基本的爬虫只需要编写一个类,实现PageProcessor...

2014/04/04 15:44
5.1K
使用webmagic抓取页面并保存为wordpress文件

之前做过一年的爬虫,当年功力不够,写的代码都是一点一点往上加。后来看了下据说是最优秀的爬虫scrapy的结构,山寨了一个Java版的爬虫框架webmagic。 这个框架也分为Spider、Schedular、Dow...

2013/06/09 18:09
5.4K
给webmagic加上了注解支持

今天有个网友在博客回帖,能不能用注解来写一个爬虫?想了想,因为Javaer总习惯结果有个对象Model(我在自己用的时候也是这样),ResultItems的key-value形式难免会有点麻烦,何不将抽取和Mod...

2013/08/01 22:58
1K
使用Selenium来抓取动态加载的页面

一般的爬虫都是直接使用http协议,下载指定url的html内容,并对内容进行分析和抽取。在我写的爬虫框架webmagic里也使用了HttpClient来完成这样的任务。 但是有些页面是通过js以及ajax动态加载...

2013/07/26 16:48
66.3K
使用webmagic构建一个分布式的爬虫

之前说过,使用webmagic的架构,很容易就可以通过扩展Scheduler构建一个分布式的爬虫。 参考淘宝官方博客的文章快速构建实时抓取集群,构建了一个基于redis的分布式爬虫实现,代码如下: <!...

2013/07/25 08:24
8.4K
写在工作满三年的时候

连续忙了大概1个半月,没有9点之前回家过,今天项目终于临近尾声,回家写个博客吧。 转眼间工作满三年了。已经过了急着要证明自己的时候了。带领团队的成长,才是更需要做的事情。

2014/07/24 23:06
2.9K
想要在webmagic中自定义一门爬虫语言

早在开始开发webmagic之前,就一直在思考,如何让爬虫的描述变得简单? 单条表达式描述一个抽取规则的诱惑是相当大的,这样子注解、配置、动态生成,都非常容易展开了。有个朋友做过一个管理...

2013/09/04 15:17
875
Jsoup代码解读之一-概述

今天看到一个用python写的抽取正文的东东,美滋滋的用Java实现了一番,放到了webmagic里,然后发现Jsoup里已经有了…觉得自己各种不靠谱啊!算了,静下心来学学好东西吧! Jsoup是Java世界用...

2013/08/25 21:13
4.7K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部