文档章节

Gecco框架典型案例—闲逛APP

xtuhcy
 xtuhcy
发布于 2016/05/31 10:02
字数 469
阅读 344
收藏 1

Gecco开源爬虫框架是2015年12月31日发布的,发布以来在易用性、可扩展性上得到了大家的肯定。目前在github上已经有230+的star,100+的fork。那么,Gecco这个新的爬虫框架在实际应用中的表现如何呢?为了让用户放心使用Gecco框架,Gecco团队发布了一款使用Gecco爬虫框架开发的APP——闲逛。这款应用更多的是用来验证Gecco框架的易用性、稳定性、可扩展性。任何脱离实际应用的框架都是耍流氓。

闲逛应用抓取了京东、苏宁易购、天猫、什么值得买等10多个主流电商和导购平台,经过数据清洗和聚合实现了如下功能:

  • 【历史新低】实时获取电商价格动态,历史新低谁买谁赚
  • 【值得买】全网什么值得买信息全收录
  • 【9.9包邮】天猫9.9包邮实时更新
  • 【优惠券】收集全网优惠券信息

闲逛应用的爬虫部分主要使用了Gecco的核心和Gecco-Spring的扩展框架,由于规模还不大,并没有使用Gecco-Redis分布式爬虫,由于考虑到效率问题也没有使用Gecco-HtmlUnit扩展框架。下一步引入更多电商网站的抓取后将会使用Gecco-Redis扩展框架进行分布式抓取,以验证Gecco-Redis的可靠性。

闲逛应用的爬虫部分已经做了7*24小时的稳定性测试,今后,Gecco的升级都会先在闲逛应用上做好测试后再进行版本的发布。

APP目前只有Android客户端。可以通过点击这里下载,也能通过扫描下面的二维码进行下载,有兴趣的朋友可以安装使用。 闲逛

© 著作权归作者所有

共有 人打赏支持
xtuhcy

xtuhcy

粉丝 105
博文 17
码字总数 20302
作品 1
北京
后端工程师
私信 提问
加载中

评论(1)

苦思冥想
苦思冥想
看了gecco的源码结构清晰,值得一用,是否准备把这个闲逛的项目开源呢?😃
易用的轻量化的网络爬虫--GECCO

Gecco是什么 Gecco是一款用java语言开发的轻量化的易用的网络爬虫。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架,让您只需要配置一些jquery风格的选择器...

xtuhcy
2016/02/19
12.2K
21
Gecco 1.1.3 发布,易用的轻量化爬虫

Gecco 1.1.3 发布了,该版本改进内容包括: 处理jsonp的时候,分号问题修复 2.支持自定义下载重试次数定义,GeccoEngine.retry(count) 3.HttpClientDownloader支持response的Set Cookie自动存...

xtuhcy
2016/05/31
2.3K
9
Gecco 1.2.5 发布,易用的轻量化爬虫

Gecco 1.2.5 发布了,DynamicGecco 实现了爬虫规则的热部署,是首个支持动态加载的java爬虫框架。 更新内容: @Gecco注解支持多个matchUrl,一个spiderbean可以同时匹配多种形式的url jd地址...

xtuhcy
2016/11/03
2.4K
5
线下技术沙龙--APP即时通讯技术线下交流会

主题背景 掌握一个高度稳定可靠的即时通讯技术在实践上会遇到很多的坑点、难点。尤其是支持千万级用户的高并发技术,更需要长期深入的积累和实践的验证。 环信作为国内首家即时通讯云厂商,截...

Jack
2014/09/22
68
0
gecco 1.0.7 发布,轻量化网络爬虫

gecco 1.0.7 发布了。gecco是一种轻量化网络爬虫,同时也是一款拥有很好扩展性的框架。 主要特征: 1、简单易用,使用jquery的css selector风格抽取元素 2、支持页面中的异步ajax请求 3、支持...

xtuhcy
2016/03/21
3.3K
15

没有更多内容

加载失败,请刷新页面

加载更多

Confluence 6 自定义你的空间

通过对你的空间进行界面的自定义能够让你的空间更加出类拔萃。 如果你具有空间管理员权限,你可以修改你空间的颜色配色,添加你自己的空间标识,选择是否在你空间中显示边栏。或者你可以进入...

honeymose
25分钟前
1
0
Ubuntu18.04 安装MySQL

1.安装MySQL sudo apt-get install mysql-server 2.配置MySQL sudo mysql_secure_installation 3.设置MySQL非root用户 设置原因:配置过程为系统root权限,在构建MySQL连接时出现错误:ERROR...

AI_SKI
今天
3
0
3.6 rc脚本(start方法) 3.7 rc脚本(stop和status方法) 3.8 rc脚本(以daemon方式启动)

3.6-3.7 rc脚本(start、stop和status方法) #!/usr/bin/env python# -*- coding: utf-8 -*-# [@Version](https://my.oschina.net/u/931210) : python 2.7# [@Time](https://my.oschina.......

隐匿的蚂蚁
今天
3
0
Cnn学习相关博客

CNN卷积神经网络原理讲解+图片识别应用(附源码) 笨方法学习CNN图像识别系列 深度学习图像识别项目(中):Keras和卷积神经网络(CNN) 卷积神经网络模型部署到移动设备 使用CNN神经网络进行...

-九天-
昨天
5
0
flutter 底部输入框 聊天输入框 Flexible

想在页面底部放个输入框,结果键盘一直遮住了,原来是布局问题 Widget build(BuildContext context) { return Scaffold( appBar: AppBar( title: Text("评论"), ...

大灰狼wow
昨天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部