加载中
xtuhcy 09/11 10:55 评论了博客:Gecco爬虫框架的线程和队列模型
加二群吧
@xtuhcy
##简述爬虫在抓取一个页面后一般有两个任务,一个是解析页面内容,一个是将需要继续抓取的url放入队列继续抓取。因此...
xtuhcy 2019/11/05 15:42 发布了新博客:
xtuhcy 2019/05/24 14:37 评论了软件:易用的轻量化的网络爬虫 gecco
一直是想弄xpath,最近太懒
易用的轻量化的网络爬虫 gecco
Gecco是什么 Gecco是一款用java语言开发的轻量化的易用的网络爬虫。Gecco整合了jsoup、http...
xtuhcy 2017/10/10 10:13 发布了新博客:
xtuhcy 2016/11/03 13:36 评论了新闻:Gecco 1.2.5 发布,易用的轻量化爬虫
已经更新:)
@xtuhcy
Gecco 1.2.5 发布了,DynamicGecco 实现了爬虫规则的热部署,是首个支持动态加载的java爬虫...
不会啊,maven都能正常下载啊。jmxutils的官网,https://github.com/martint/jmxutils
@xtuhcy
#教您使用java爬虫gecco抓取JD全部商品信息(一)##gecco爬虫如果对gecco还没有了解可以参看一下...
xtuhcy 2016/07/05 21:07 评论了博客:Gecco爬虫框架的线程和队列模型
想用多线程提高效率就想办法放入初始请求队列。初始队列不一定是静态的,爬虫也可以用来爬取初始队列。
@xtuhcy
##简述爬虫在抓取一个页面后一般有两个任务,一个是解析页面内容,一个是将需要继续抓取的url放入队列继续抓取。因此...
http://www.geccocrawler.com/
@xtuhcy
Gecco 1.2.0 发布了,该版本改进内容包括:1.HttpClientDownloader保证inputst...
xtuhcy 2016/06/01 07:53 评论了新闻:Gecco 1.1.3 发布,易用的轻量化爬虫
文档在官网http://www.geccocrawler.com/
@xtuhcy
Gecco 1.1.3 发布了,该版本改进内容包括:处理jsonp的时候,分号问题修复2.支持自定义下载重试次数定...
xtuhcy 2016/05/31 10:02 发布了新博客:
xtuhcy 2016/05/23 09:24 评论了新闻:Gecco 1.1.2 发布,易用的轻量化爬虫
加qq群讨论吧
@xtuhcy
Gecco 1.1.2 发布了。该版本主要做了如下修改: 1.更新fastjson,jsoup,cglib最新版本...
xtuhcy 2016/05/16 10:07 评论了新闻:Gecco 1.1.2 发布,易用的轻量化爬虫
正文提取很不错啊~
@xtuhcy
Gecco 1.1.2 发布了。该版本主要做了如下修改: 1.更新fastjson,jsoup,cglib最新版本...
xtuhcy 2016/05/16 10:05 评论了新闻:Gecco 1.1.2 发布,易用的轻量化爬虫
gecco版本发布基本保持在2周一次的频率,因为之前1.1.1版本中的UniqueSpiderScheduler有较大的bug,所以提前一周发布1.1.2版本。请使用1.1.1版本的同学尽快更新到1.1.2
@xtuhcy
Gecco 1.1.2 发布了。该版本主要做了如下修改: 1.更新fastjson,jsoup,cglib最新版本...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部