开源中国

我们不支持 IE 10 及以下版本浏览器

It appears you’re using an unsupported browser

为了获得更好的浏览体验,我们强烈建议您使用较新版本的 Chrome、 Firefox、 Safari 等,或者升级到最新版本的IE浏览器。 如果您使用的是 IE 11 或以上版本,请关闭“兼容性视图”。
CrawlScript的个人空间 - 开源中国社区
技能积分 40
活跃积分 6
粉丝 99
加入于 2014/01/16 最近登录:03/08 00:41
CrawlScript 5个月前
更新了动态
即插即用 #WebCollector#
0 0 查看
CrawlScript 1年前 Android
过一两分钟肯定会自动停止的,估计你爬人家网站太频繁,都造成卡顿
@JCodeMan
@CrawlScript 你好,想跟你请教个问题: 一直这样不停的循环,是怎么回事? 有的时候运行很好,有时就会这样
CrawlScript 1年前 Android
不是死循环,超过时间就会自动停止,失败的页面后续会自动爬取就。
@JCodeMan
@CrawlScript 你好,想跟你请教个问题: 一直这样不停的循环,是怎么回事? 有的时候运行很好,有时就会这样
CrawlScript 1年前
@JCodeMan 一般是自己爬数据,调用正文提取时给html字符串,爬的数据自己设定编码就行
@CrawlScript
这个用的java自带的解码,后面我看看怎么解决
CrawlScript 1年前
参考jsoup文档: http://www.open-open.com/jsoup/working-with-urls.htm
@liwz233
@CrawlScript 你好,想跟你请教个问题: 比如在抓取百度百科时,种子URL使用的链接为baike.baidu.com/search/word?word=刘亦菲,最后jsoup解析页面获取的URL还是“baike.baidu.com/search/word?word=刘亦菲”,我...
CrawlScript 1年前
这个用的java自带的解码,后面我看看怎么解决
@JCodeMan
http://www.baizhan.net/zt/20120426/10039.html 生僻字或者繁体字 乱码 请问怎么解决?
CrawlScript 1年前
可以参考文章:网页抽取技术和算法 算法原理参考10年之后Webpage Content Extraction相关论文。 如果需要正确率较高的正文提取算法,可私聊购买商业版。
@SundyIT
@CrawlScript 你好,想跟你请教个问题:http://www.chinayyhg.com/index.asp    这个网站的新闻正文内容提取不了,请教下提取算法的原理,有个有道云剪切插件还是蛮准确的    求指教正文提取算法的实现    我...
CrawlScript 1年前
添加了开源项目 DataHref
随着大数据技术的普及,对数据挖掘的需求在不断上升,本项目为一些常用的数据挖掘工具提供中文文档,并提供一部分数据挖掘算法的教程,仍在不断更新中。 mllib、scikit等数据挖掘工具的教程 教程不断更新中... 数...
1 查看
CrawlScript 1年前
更新了动态
JAVA网络爬虫教程:http://datahref.com/book/
0 0 查看
CrawlScript 2年前
分享了一段代码 WebCollector下载图片
WebCollector下载图片
0 查看
顶部
×
动弹一下 还可以输入5
单图/多图
网络图片
上传图片
9 张,还能上传 9
上传图片
  • +
发布
×
设置备注名:
保存
用户尚未登录,点击这里登录