WebMagic-Avalon之分布式实现方案

WebMagic之前具有基本的分布式功能,可以将一个Spider部署到多台机器上,并通过Redis来管理URL,达到多机合作抓取的目标。 我在WebMagic-Avalon里计划完成一个管理后台,通过这个后台可以新建...

黄亿华
2014/03/12
5K
19
记webmagic一个多线程问题排查和修复的过程

在webmagic的多线程抓取中有一个比较麻烦的问题:当Scheduler拿不到url的时候,不能立即退出,需要等到没抓完的线程都运行完毕,没有新url产生时,才能退出。之前使用Thread.sleep来实现,当...

黄亿华
2013/11/27
2.9K
7
使用webmagic抓取页面并保存为wordpress文件

之前做过一年的爬虫,当年功力不够,写的代码都是一点一点往上加。后来看了下据说是最优秀的爬虫的结构,山寨了一个Java版的爬虫框架。 这个框架也分为Spider、Schedular、Downloader、Pipel...

黄亿华
2013/06/09
5.4K
22
webmagic 0.4.0的特性

0.4.0已发布,新闻:http://www.oschina.net/news/45720/webmagic-0-4-0 webmagic 0.4.0将于本周内发布,新增特性: 大幅优化下载效率 升级HttpClient到4.3.1,重写了HttpClientDownloader的...

黄亿华
2013/11/04
1K
22
记一次初学Webmagic的踩坑之旅:爬取知乎数据

好久没更新博客了,最近在做一个知乎的小爬虫 webmagic是一个简单灵活的Java爬虫框架。基于WebMagic,支持多线程爬取,爬取逻辑明确、是一个易维护的爬虫。 官方给出的流程图是像下面这样的:...

语落心生
2018/11/02
0
0

没有更多内容

加载失败,请刷新页面

加载更多