文档章节

GuozhongCrawler系列教程 (1) 三大PageDownloader

郭钟
 郭钟
发布于 2015/06/08 13:38
字数 1011
阅读 133
收藏 0
点赞 0
评论 0

   

GuozhongCrawler  QQ群 202568714

 

    GuozhongCrawler内置三大PageDownloader。分别是采用HttpClient作为内核下载的DefaultPageDownloader、采用HtmlUnitDriver作为内核下载WebDriverDownloader、采用ChromeDriver调用浏览器作为内核下载的ChromeDriverDownloader。

        其中DefaultPageDownloader和WebDriverDownloader在实际开发中用的最好性能也是最好的。而ChromeDriverDownloader虽然性能不佳。但是ChromeDriverDownloader能够灵活调用浏览器抓取。在调试过程中使用ChromeDriverDownloader可以看到爬虫真实的运行流程确实为开发增添了不少乐趣。

        首先我们来看下如何使用大三下载器。以及它们各种什么特点。

  一、DefaultPageDownloader

      DefaultPageDownloader既然是采用HttpClient作为内核下载器。那么他必须兼容所有httpClient应该有的功能。例子我们以职友企业网抓取为例子。我们准备了阿里巴巴和淘宝网两个公司的主页URL。并通过CrawTaskBuilder注入到CrawlTask中。prepareCrawlTask时指定使用DefaultPageDownloader作为下载器。

       String alibaba = "http://www.jobui.com/company/281097/";
        String taobao = "http://www.jobui.com/company/593687/";
        
         CrawTaskBuilder builder  = CrawlManager.getInstance()
        .prepareCrawlTask("职友网爬虫", DefaultPageDownloader.class)
        .useThread(2)//使用两个线程下载
        .injectStartUrl(alibaba, PageCompanyDescript.class)
        .injectStartUrl(taobao, PageCompanyDescript.class)
        .usePageEncoding(PageEncoding.UTF8);
         CrawlTask spider = builder.build();
         CrawlManager.getInstance().start(spider);

PageCompanyDescript.java的实现我们现在暂时只输出解析出来的公司名称代码如下

public class PageCompanyDescript implements PageProcessor {
    @Override
    public PageScript getJavaScript() {
        return null;
    }

    @Override
    public Pattern getNormalContain() {
        return null;
    }
    
    @Override
    public void process(OkPage page, StartContext context,
            List<BasicRequest> queue, List<Proccessable> objectContainer)
            throws Exception {
        Document doc = Jsoup.parse(page.getContent());
        Element h1 = doc.select("h1[id=companyH1]").first();
        if(h1 != null){
            System.out.println("公司全称:"+h1.text());
        }
    }

    @Override
    public void processErrorPage(Page arg0, StartContext arg1)
            throws Exception {
    }

}


OK。现在测试代码就已经完成。我们运行。




二、WebDriverDownloader

使用WebDriverDownloader其实只要把main方法中的prepareCrawlTask("职友网爬虫", DefaultPageDownloader.class)

改成prepareCrawlTask("职友网爬虫", WebDriverDownloader.class)即可完成WebDriverDownloader的设置。

为了体现区别我们在PageCompanyDescript中实现getJavaScript方法来执行一段js代码。getJavaScript实现如下:

    @Override
    public PageScript getJavaScript() {
        return new PageScript() {
            
            @Override
            public void executeJS(HtmlUnitDriver driver) throws Exception {
                WebElement element = driver.findElementById("companyH1");
                driver.executeScript("arguments[0].innerHTML='WebDriverDownloader支持执行JavaScript';", element);
            }
        };
    }

OK运行之后的结果如下图。


10:10:23,572到 10:10:32,056中间相差了9s的时间。这是因为webdriver的js引擎在jvm中执行确实过慢。但大规模抓取过程中还是建议采用抓包抓取的方式。



三、ChromeDriverDownloader

ChromeDriverDownloader和WebDriverDownloader功能上一样。只是下载会调用谷歌浏览器。用户需要安装谷歌浏览器和下载chromedriver。放在谷歌浏览器的安装目录。我的目录是D:\program files (x86)\Chrome。那么chromedriver的路径是D:\program files (x86)\Chrome\chromedriver.exe。

这里解释下ChromeDriver是Chromium team开发维护的,它是实现WebDriver有线协议的一个单独的服务。ChromeDriver通过chrome的自动代理框架控制浏览 器,ChromeDriver只与12.0.712.0以上版本的chrome浏览器兼容。

chromedriver下载地址:https://code.google.com/p/chromedriver/wiki/WheredAllTheDownloadsGo?tm=2

之后我们修改main方法中的代码:

        //设置chromedriver.exe路径
        System.setProperty("webdriver.chrome.driver", "D:\\program files (x86)\\Chrome\\chromedriver.exe");
                 
        String alibaba = "http://www.jobui.com/company/281097/";
        String taobao = "http://www.jobui.com/company/593687/";
        CrawTaskBuilder builder  = CrawlManager.getInstance()
        .prepareCrawlTask("职友网爬虫", ChromeDriverDownloader.class)
        .useThread(2)//使用两个线程下载
        .injectStartUrl(alibaba, PageCompanyDescript.class)
        .injectStartUrl(taobao, PageCompanyDescript.class)
        .usePageEncoding(PageEncoding.UTF8);
        CrawlTask spider = builder.build();
        CrawlManager.getInstance().start(spider);

再次执行会弹出谷歌浏览器界面,我们可以看到爬虫抓取过程了。



控制台输出



可能你会注意到。我们用了useThread(2)//使用两个线程下载。为什么没有出现两个谷歌浏览器同时抓。这里解释是因为我们注入种子URL的方式是使用injectStartUrl它会注入2个StartContext。而StartContext好比是一批种子URL的上下文。同一时间是不能同时使用的。为此GuozhongCrawler提供了DynamicEntrance的概念实现多个种子URL同时共享一个StartContext的功能。想了解DynamicEntrance的话,请继续关注后期GuozhongCrawler系列教程。谢谢大家!

GuozhongCrawler  QQ群 202568714





© 著作权归作者所有

共有 人打赏支持
郭钟
粉丝 17
博文 12
码字总数 7550
作品 1
北京
架构师
开源爬虫框架--GuozhongCrawler

guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。模块化设计完全面向业务提供接口,功能覆盖整个爬虫的生命周期(链接提...

郭钟 ⋅ 2015/04/13 ⋅ 0

GuozhongCrawler实现一个完整爬虫

经过上一节开发环境搭建中的百度新闻的爬虫例子,相信大家已经对GuozhongCrawler简洁的API产生浓厚兴趣了。不过这个还不算一个入门例子。只是完成了简单的下载和解析。现在我们来完成一个比较...

郭钟 ⋅ 2015/04/18 ⋅ 3

2017软考 | 正式的培训课开始之前,我该做些什么?

转眼又到了2017年上半年的软考考试季(5月20日),攻克要塞(公众号ruankao580)与培训结构合作的课程马上就要开始,基于攻克要塞软考团队以往的面授经验,因此,我们就面授课正式开始之前的...

liuyiok ⋅ 2017/02/22 ⋅ 0

Android的,iOS的,PHP的,大数据的,Java的,web前端的,C++,Python等干货分享

这是一些学习资源,里面有Android的,iOS的,PHP的,大数据的,Java的,web前端的,C++,Python的…. 有的来源地址是在一个公众号的群.感谢群主的分享.有的是我以前收集的.在此我也分享给大家.如果大...

月亮1987 ⋅ 2017/09/04 ⋅ 0

2017年应试 | 通过软考(集成、项管)的三个关键要素

有同学咨询教程教辅、学习方法等相关的问题,我们把相关问题合并后在此一并答复。 1.我们在面授过程中强调的是“框架+内容”的学习方法,所谓框架,具体的产物是攻克要塞的知识图谱,通过知识...

liuyiok ⋅ 2017/04/07 ⋅ 0

买会员卡送豪华超值大礼包

今天是最值得庆贺的一个好日子,因为许多朋友热切期待的,我在51CTO学院上的终身会员卡终于正式上线了!! 终身会员卡地址:http://edu.51cto.com/member/id-9.html 视频课程主心:http://ed...

茶乡浪子 ⋅ 2014/07/23 ⋅ 0

Docker容器技术 学习笔记汇总

“如果你不出去走走,你就会以为这就是全世界。” 一直在嵌入式领域,这次遇到Docker算是长了见识。刚好公司同事们对这块了解地不多,那就把Docker容器技术的学习梳理成系列笔记,让其他伙伴少...

iotisan ⋅ 2017/10/20 ⋅ 0

ArchLinux简明安装教程

ArchLinux是一个十分优秀的发行版,定制性极高,同时不像Gentoo那样花那么多时间编译。安装ArchLinux无疑是对Linux发行版架构的一次熟悉和学习。目前,网上的相关教程基本已经过期,同时官方...

KenSun ⋅ 2013/05/05 ⋅ 8

2017年应试 | 2.准备高级教程与教辅(信息系统项目管理师)

2017年应试 | 2.准备教程与教辅(高级信息系统项目管理师) 后续发布:中级系统集成项目管理工程师教程与教辅的准备 很多考生在后台咨询教材以及攻克要塞系列教辅的事宜,本贴就2017年备考的...

liuyiok ⋅ 2017/03/23 ⋅ 0

Aspose.Cells for .NET入门教程合集【连载中】

无需Microsoft Excel,也能在应用程序中实现类似Excel的强大数据管理功能。本系列教程将会带领你打开表格控件Aspose.Cells for .NET的大门。 Aspose.Cells for .NET入门视频教程系列(1):用...

鸟栖沙岩 ⋅ 2016/12/14 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

懒惰根本就不存在

简评:芝加哥大学心理学教授,懒惰根本就不存在。(本文表面讲行为心理学实则讲教育) 金句:以好奇而不是判断来回应一个人的无效行为,是非常有帮助的。 本文「我」代表原作者 E Price。 自...

极光推送 ⋅ 28分钟前 ⋅ 0

Excel提取单元格中最后一个“.”后面的数据

java.lang.String ----- String =TRIM((MID(SUBSTITUTE(B2,".",REPT(" ",99)),(LEN(B2)-LEN(SUBSTITUTE(B2,".","")))*99,99)))...

klog ⋅ 30分钟前 ⋅ 0

mac远程桌面

下载安装remote-desktop-mac Mac beta 客户端 mac通过远程桌面访问windows服务器。

亚林瓜子 ⋅ 34分钟前 ⋅ 0

firrtl

动手---sbt(2)之后,再回头看 chisel第一个实验,根据 https://github.com/freechipsproject/firrtl 发现firrtl没有执行sbt assembly命令,重新执行这个命令,结果成功。如下图: joe@joe-As...

whoisliang ⋅ 38分钟前 ⋅ 0

NIO

一、通道(Channel):用于源节点与目标节点的连接。在 Java NIO 中负责缓冲区中数据的传输。Channel 本身不存储数据,因此需要配合缓冲区进行传输。 二、通道的主要实现类 java.nio.channel...

stars永恒 ⋅ 39分钟前 ⋅ 0

Android悬浮窗的实现

0. 前言   现在很多应用都使用到悬浮窗,例如微信在视频的时候,点击Home键,视频小窗口仍然会在屏幕上显示。这个功能在很多情况下都非常有用。那么今天我们就来实现一下Android悬浮窗,以...

猴亮屏 ⋅ 39分钟前 ⋅ 0

日志采集中的关键技术分析

概述 日志从最初面向人类演变到现在的面向机器发生了巨大的变化。最初的日志主要的消费者是软件工程师,他们通过读取日志来排查问题,如今,大量机器日夜处理日志数据以生成可读性的报告以此...

tqyin ⋅ 40分钟前 ⋅ 0

使用Navicat将数据导出为text文本 然后再导入

将数据导出为text文本效率很高 1. 准备工作 1.1 准备表结构 1.2 目标库 执行生成表结构sql 2.将表数据导出为text文本 生成的text文本 3. 目标库 导入text 4.效果...

Lucky_Me ⋅ 46分钟前 ⋅ 0

IntelliJ IDEA 乱码解决方案 (项目代码、控制台等)

文章介绍了idea下,项目乱码、控制台乱码及运行tomcat控制台乱码的解决方案,文章链接:https://www.cnblogs.com/vhua/p/idea_1.html

Funcy1122 ⋅ 49分钟前 ⋅ 0

IDEA使用sonarLint

一、IDEA如何安装SonarLint插件 1.打开 Idea 2.点击【File】 3.点击【Settings】 4.点击【Plugins】 5.在搜索栏中输入“sonarlint”关键字 6.点击【Install】进行安装 7.重启Idea 二、IDEA如...

开源中国成都区源花 ⋅ 54分钟前 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部