加载中
xtuhcy 2017/10/10 10:13 发布了新博客:
xtuhcy 2016/11/03 13:36 评论了新闻:Gecco 1.2.5 发布,易用的轻量化爬虫
已经更新:)
@xtuhcy
Gecco 1.2.5 发布了,DynamicGecco 实现了爬虫规则的热部署,是首个支持动态加载的java爬虫...
不会啊,maven都能正常下载啊。jmxutils的官网,https://github.com/martint/jmxutils
@xtuhcy
#教您使用java爬虫gecco抓取JD全部商品信息(一)##gecco爬虫如果对gecco还没有了解可以参看一下...
xtuhcy 2016/07/05 21:07 评论了博客:Gecco爬虫框架的线程和队列模型
想用多线程提高效率就想办法放入初始请求队列。初始队列不一定是静态的,爬虫也可以用来爬取初始队列。
@xtuhcy
##简述爬虫在抓取一个页面后一般有两个任务,一个是解析页面内容,一个是将需要继续抓取的url放入队列继续抓取。因此...
http://www.geccocrawler.com/
@xtuhcy
Gecco 1.2.0 发布了,该版本改进内容包括:1.HttpClientDownloader保证inputst...
xtuhcy 2016/06/01 07:53 评论了新闻:Gecco 1.1.3 发布,易用的轻量化爬虫
文档在官网http://www.geccocrawler.com/
@xtuhcy
Gecco 1.1.3 发布了,该版本改进内容包括:处理jsonp的时候,分号问题修复2.支持自定义下载重试次数定...
xtuhcy 2016/05/31 10:02 发布了新博客:
xtuhcy 2016/05/23 09:24 评论了新闻:Gecco 1.1.2 发布,易用的轻量化爬虫
加qq群讨论吧
@xtuhcy
Gecco 1.1.2 发布了。该版本主要做了如下修改: 1.更新fastjson,jsoup,cglib最新版本...
xtuhcy 2016/05/16 10:07 评论了新闻:Gecco 1.1.2 发布,易用的轻量化爬虫
正文提取很不错啊~
@xtuhcy
Gecco 1.1.2 发布了。该版本主要做了如下修改: 1.更新fastjson,jsoup,cglib最新版本...
xtuhcy 2016/05/16 10:05 评论了新闻:Gecco 1.1.2 发布,易用的轻量化爬虫
gecco版本发布基本保持在2周一次的频率,因为之前1.1.1版本中的UniqueSpiderScheduler有较大的bug,所以提前一周发布1.1.2版本。请使用1.1.1版本的同学尽快更新到1.1.2
@xtuhcy
Gecco 1.1.2 发布了。该版本主要做了如下修改: 1.更新fastjson,jsoup,cglib最新版本...
@king 详情页通常是列表页的派生请求,生成派生请求时可以通过HttpRequest.addParameter()方法加入你需要列表页传递给详情页的参数
@xtuhcy
gecco 1.1.0稳定版发布了。1.1.0版本主要做了如下修改:1.优化代理设置,运行时计算代理下载成功率,自...
@wanbao 登录通常是通过模拟cookie实现
@xtuhcy
gecco 1.1.0稳定版发布了。1.1.0版本主要做了如下修改:1.优化代理设置,运行时计算代理下载成功率,自...
@自由 可变配置是指的什么?
@xtuhcy
gecco 1.1.0稳定版发布了。1.1.0版本主要做了如下修改:1.优化代理设置,运行时计算代理下载成功率,自...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部