文档章节

GuozhongCrawler系列教程 (3) PageProcessor详解

郭钟
 郭钟
发布于 2015/06/08 18:01
字数 422
阅读 88
收藏 0

       PageProcessor是所有PageRequest请求完成后处理的接口。 例如:startContext.createPageRequest("http://my.oschina.net/u/1377701/blog/425984",OschinaProcessor.class)即可指定处理页面结果 此时重写OschinaProcessor.process方法即可完成解析工作


方法详细资料

  • getJavaScript

    PageScript getJavaScript()

    如果这个页面需要动态交互JS,定义一个PageScript返回

    • 返回:


  • getNormalContain

    java.util.regex.Pattern getNormalContain()

    当启动代理Ip访问时需要重写此方法,返回正常网页应该带有的字符串标识。比如www.baidu.com带有“百度”

    • 返回:


  • process

    void process(OkPage page,           StartContext context,
               java.util.List<BasicRequest> queue,
               java.util.List<Proccessable> objectContainer)
                 throws java.lang.Exception

    处理一个页面

    • 参数:

    • page - 下载完成的网页

    • context - 当前所有入口的上下文对象

    • queue - 加入跟进Request的List容器,处理完成后queue的所有Request会被推送到抓取队列中

    • 抛出:

    • java.lang.Exception

  • processErrorPage

    void processErrorPage(Page page,                    StartContext context)
                          throws java.lang.Exception

    处理错误页面

    • 参数:

    • page -

    • context -

    • 抛出:

    • java.lang.Exception


© 著作权归作者所有

共有 人打赏支持
郭钟
粉丝 17
博文 12
码字总数 7550
作品 1
北京
架构师
私信 提问
GuozhongCrawler实现一个完整爬虫

经过上一节开发环境搭建中的百度新闻的爬虫例子,相信大家已经对GuozhongCrawler简洁的API产生浓厚兴趣了。不过这个还不算一个入门例子。只是完成了简单的下载和解析。现在我们来完成一个比较...

郭钟
2015/04/18
0
3
C语言自学完备手册(21)——递归

版权声明: https://blog.csdn.net/lfdfhl/article/details/82897146 自定义View系列教程00–推翻自己和过往,重学自定义View 自定义View系列教程01–常用工具介绍 自定义View系列教程02–o...

谷哥的小弟
09/29
0
0
C语言自学完备手册(19)——冒泡排序

版权声明: https://blog.csdn.net/lfdfhl/article/details/82862688 自定义View系列教程00–推翻自己和过往,重学自定义View 自定义View系列教程01–常用工具介绍 自定义View系列教程02–o...

谷哥的小弟
09/27
0
0
Could not find com.android.tools.build:gradle:3.0.1

版权声明: https://blog.csdn.net/lfdfhl/article/details/84191614 自定义View系列教程00–推翻自己和过往,重学自定义View 自定义View系列教程01–常用工具介绍 自定义View系列教程02–o...

谷哥的小弟
前天
0
0
C语言自学完备手册(33)——完结

版权声明: https://blog.csdn.net/lfdfhl/article/details/83988938 自定义View系列教程00–推翻自己和过往,重学自定义View 自定义View系列教程01–常用工具介绍 自定义View系列教程02–o...

谷哥的小弟
11/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

thinkphp门窗定制电商平台

这个门窗定制电商平台的目标是,消费者通过门窗定制平台,上传要定制门窗的尺寸数据下订单,电商平台分派订单给厂家商家定制商品,由厂家商家直接发货给消费者。消费者的资金托管在电商平台里...

乐兔CRM
5分钟前
0
0
全局光照---小结

中国龙-扬科
7分钟前
0
0
LAMP架构设置防盗链及访问控制

11月19日任务 11.25 配置防盗链 11.26 访问控制Directory 11.27 访问控制FilesMatch 配置防盗链 为什么要配置防盗链 第三方的站点可以通过引用的方式来获取本服务器上的资源如图片等,但是相...

robertt15
7分钟前
0
0
AWS 推出长期支持的 OpenJDK 免费分发版本 —— Amazon Corretto

简评:听说 Oracle JDK 要收费了,Oracle 要限制 Java 的商业或生产用途,针对这个问题,AWS 将会推出 Amazon Corretto。 Java 是 AWS 用户使用的最流行的编程语言之一,亚马逊一直致力于支持...

极光推送
13分钟前
0
0
Cloudinit如何判断虚拟机为初始化状态

Cloudinit简介 cloudinit是专为云环境中虚拟机的初始化而开发的工具,它从各种数据源读取相关数据并据此对虚拟机进行配置。常见的数据源包括:云平台的metadata服务、ConfigDrive等,常见的配...

空灵飞渡
24分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部