文档章节

SeimiCrawler v0.24发布了

无极小子
 无极小子
发布于 2015/12/15 22:35
字数 512
阅读 29
收藏 0

简介

SeimiCrawler是一个敏捷的,支持分布式的爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发很大,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目,非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。

Change log

   v0.2.4

  • 自动跳转增强,除301,302外增加支持识别通过meta refresh方式的页面跳转

  • Response对象增加通过getRealUrl()获取内容对应重定向以及跳转后的真实连接

  • 通过注解@Crawler中'useUnrepeated'属性控制是否启用系统级去重机制,默认开启

   v0.2.3

  • 支持自定义动态代理 开发者可以通过覆盖BaseSeimiCrawler.proxy()来自行决定每次请求所使用的代理,覆盖该方法并返回有效代理地址则@Crawler proxy属性失效。

  • 添加动态代理,动态User-Agent使用demo

   v0.2.2

  • 增强对不规范网页的编码识别与兼容能力

   v0.2.1

  • 优化黑白名单正则过滤机制

   v0.2.0

  • 增加支持内嵌http服务API提交json格式的Request请求

  • 增加针对请求URL进行校验的allowRulesdenyRules的自定义设置,即白名单规则和黑名单规则,格式均为正则表达式。默认为null不进行检查

  • 增加对Request的合法性的统一校验

  • 增加支持请求间的delay时间设置

项目地址:GitHub


© 著作权归作者所有

无极小子
粉丝 13
博文 8
码字总数 6214
作品 4
朝阳
程序员
私信 提问
SeimiCrawler v0.2.6 发布,Java 爬虫框架

特别介绍 2016.01.05:专门为SeimiCrawler工程打包部署的maven-seimicrawler-plugin已经发布可用,详细请继续参阅maven-seimicrawler-plugin或是详细文档中"工程化打包部署章"节。 Change l...

无极小子
2016/01/09
896
3
SeimiCrawler v1.2.0 发布,Java 爬虫框架

SeimiCrawler v1.2.0 发布了。 变更日志 v1.2.0 支持处理头中没有指定编码的中文页面 支持通过注解中的属性自定义http请求的超时时间,默认 v1.1.0 可通过实现SeimiCrawler的List startReque...

无极小子
2016/07/22
1K
0
Java爬虫框架 - SeimiCrawler

SeimiCrawler An agile,powerful,distributed crawler framework. SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。 简介 SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Jav...

无极小子
2015/11/10
10.3K
6
SeimiCrawler V1.0.0 发布,Java 爬虫框架

SeimiCrawler V1.0.0发布了,更新如下: http请求处理器重构,并默认改由okhttp3实现,且支持通过@Crawler注解中的httpType自由切换为apache httpclient 部分代码优化 支持通过seimiAgent获取...

无极小子
2016/06/29
1K
1
SeimiCrawler v0.3.2 发布,Java爬虫框架

SeimiCrawler v0.3.2 发布了。更新如下: v0.3.2 化分布式模式下与redis的连接,增强分布式可靠性 bug fix v0.3.0 内置支持SeimiAgent,完美解决动态页面渲染抓取问题 修复自动跳转在某些情况...

无极小子
2016/05/18
1K
1

没有更多内容

加载失败,请刷新页面

加载更多

java通过ServerSocket与Socket实现通信

首先说一下ServerSocket与Socket. 1.ServerSocket ServerSocket是用来监听客户端Socket连接的类,如果没有连接会一直处于等待状态. ServetSocket有三个构造方法: (1) ServerSocket(int port);...

Blueeeeeee
今天
6
0
用 Sphinx 搭建博客时,如何自定义插件?

之前有不少同学看过我的个人博客(http://python-online.cn),也根据我写的教程完成了自己个人站点的搭建。 点此:使用 Python 30分钟 教你快速搭建一个博客 为防有的同学不清楚 Sphinx ,这...

王炳明
昨天
5
0
黑客之道-40本书籍助你快速入门黑客技术免费下载

场景 黑客是一个中文词语,皆源自英文hacker,随着灰鸽子的出现,灰鸽子成为了很多假借黑客名义控制他人电脑的黑客技术,于是出现了“骇客”与"黑客"分家。2012年电影频道节目中心出品的电影...

badaoliumang
昨天
16
0
很遗憾,没有一篇文章能讲清楚线程的生命周期!

(手机横屏看源码更方便) 注:java源码分析部分如无特殊说明均基于 java8 版本。 简介 大家都知道线程是有生命周期,但是彤哥可以认真负责地告诉你网上几乎没有一篇文章讲得是完全正确的。 ...

彤哥读源码
昨天
19
0
jquery--DOM操作基础

本文转载于:专业的前端网站➭jquery--DOM操作基础 元素的访问 元素属性操作 获取:attr(name);$("#my").attr("src"); 设置:attr(name,value);$("#myImg").attr("src","images/1.jpg"); ......

前端老手
昨天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部