开源中国

我们不支持 IE 10 及以下版本浏览器

It appears you’re using an unsupported browser

为了获得更好的浏览体验,我们强烈建议您使用较新版本的 Chrome、 Firefox、 Safari 等,或者升级到最新版本的IE浏览器。 如果您使用的是 IE 11 或以上版本,请关闭“兼容性视图”。
gsh199449的个人空间 - 开源中国社区
技能积分 0
活跃积分 1
粉丝 5
加入于 2014/04/23 最近登录:10/22 20:49
gsh199449 6个月前
啊 哪里?打错了?
@gsh199449
新功能: 新增ajax网页渲染器,ajax网页轻松采集; 升级ES至5.2版本; 修正一些BUG; 预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。 在线文档地址:https://gsh199449.github.io...
gsh199449 6个月前
哈哈 谢谢!
@gsh199449
新功能: 新增ajax网页渲染器,ajax网页轻松采集; 升级ES至5.2版本; 修正一些BUG; 预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。 在线文档地址:https://gsh199449.github.io...
gsh199449 6个月前
从0.6开始支持ajax动态网页采集,原理可以参考在线手册,欢迎加群交流,群号:206264662
@gsh199449
新功能: 新增ajax网页渲染器,ajax网页轻松采集; 升级ES至5.2版本; 修正一些BUG; 预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。 在线文档地址:https://gsh199449.github.io...
gsh199449 6个月前
回复 @OSC首席捣蛋侠 : :+1:
@gsh199449
新功能: 新增ajax网页渲染器,ajax网页轻松采集; 升级ES至5.2版本; 修正一些BUG; 预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。 在线文档地址:https://gsh199449.github.io...
gsh199449 8个月前
支持任何静态网站的采集,采集完成时候有丰富发数据获取接口可以和业务系统对接。
@gsh199449
此版本中新增功能如下: 数据导出功能,方便进行后期数据分析; 更新了爬虫模板配置系统,简化配置; 升级Webmagic到0.6.0版本; 修复了如下BUG: 修复了不使用ES时的空指针问题; 去除示例模板中的ID; Gather P...
gsh199449 8个月前
循环任务详细使用方法参考:https://gsh199449.github.io/gather_platform_pages/%E9%87%87%E9%9B%86%E9%85%8D%E7%BD%AE.html #Gather Platform#...
@gsh199449
Gather Platform V0.5 发布了,新功能: 新增定时任务循环,一次提交,无人值守,自动采集; 新增jetty支持,不再强制使用tomcat作为容器; 优化模板无法采集到数据时的提示; 修正去重策略的问题; 循环任务监控...
gsh199449 9个月前
已修改正文链接,码云上也有的,地址: http://git.oschina.net/gsh199449/spider。
@gsh199449
Gather Platform 数据抓取平台是一套基于 Webmagic 内核的,具有 Web 任务配置和任务管理界面的数据采集平台,一个轻量级的搜索引擎系统。具有以下功能 根据配置的模板进行数据采集 对采集的数据进行NLP处理,包...
gsh199449 9个月前
Gather Platform 数据抓取平台是一套基于 Webmagic 内核的,具有 Web 任务配置和任务管理界面的数据采集平台,一个轻量级的搜索引擎系统。具有以下功能 根据配置的模板进行数据采集 对采集的数据进行NLP处理,包...
2 查看
gsh199449 11个月前
回复了动态
通过代理进行反爬虫预计在下一个版本就会加入
@张弛1
虽然目前还不完善,但整体思路很好,可灵活配置通用模板,真是太方便了!如果以后再加入防爬、动态js加载页面爬取、分布式部署等功能,很有希望商用哦。 #Gather Platform#
gsh199449 11个月前 iPhone
回复 @黄亿华 : 可以 我也有这个想法
@gsh199449
此版本中新增功能如下: 数据导出功能,方便进行后期数据分析; 更新了爬虫模板配置系统,简化配置; 升级Webmagic到0.6.0版本; 修复了如下BUG: 修复了不使用ES时的空指针问题; 去除示例模板中的ID; Gather P...
顶部
×
动弹一下 还可以输入5
单图/多图
网络图片
上传图片
9 张,还能上传 9
  • +
发布
×
设置备注名:
保存
用户尚未登录,点击这里登录