文档章节

GuozhongCrawler系列教程 (1) 三大PageDownloader

郭钟
 郭钟
发布于 2015/06/08 13:38
字数 1011
阅读 134
收藏 0

   

GuozhongCrawler  QQ群 202568714

 

    GuozhongCrawler内置三大PageDownloader。分别是采用HttpClient作为内核下载的DefaultPageDownloader、采用HtmlUnitDriver作为内核下载WebDriverDownloader、采用ChromeDriver调用浏览器作为内核下载的ChromeDriverDownloader。

        其中DefaultPageDownloader和WebDriverDownloader在实际开发中用的最好性能也是最好的。而ChromeDriverDownloader虽然性能不佳。但是ChromeDriverDownloader能够灵活调用浏览器抓取。在调试过程中使用ChromeDriverDownloader可以看到爬虫真实的运行流程确实为开发增添了不少乐趣。

        首先我们来看下如何使用大三下载器。以及它们各种什么特点。

  一、DefaultPageDownloader

      DefaultPageDownloader既然是采用HttpClient作为内核下载器。那么他必须兼容所有httpClient应该有的功能。例子我们以职友企业网抓取为例子。我们准备了阿里巴巴和淘宝网两个公司的主页URL。并通过CrawTaskBuilder注入到CrawlTask中。prepareCrawlTask时指定使用DefaultPageDownloader作为下载器。

       String alibaba = "http://www.jobui.com/company/281097/";
        String taobao = "http://www.jobui.com/company/593687/";
        
         CrawTaskBuilder builder  = CrawlManager.getInstance()
        .prepareCrawlTask("职友网爬虫", DefaultPageDownloader.class)
        .useThread(2)//使用两个线程下载
        .injectStartUrl(alibaba, PageCompanyDescript.class)
        .injectStartUrl(taobao, PageCompanyDescript.class)
        .usePageEncoding(PageEncoding.UTF8);
         CrawlTask spider = builder.build();
         CrawlManager.getInstance().start(spider);

PageCompanyDescript.java的实现我们现在暂时只输出解析出来的公司名称代码如下

public class PageCompanyDescript implements PageProcessor {
    @Override
    public PageScript getJavaScript() {
        return null;
    }

    @Override
    public Pattern getNormalContain() {
        return null;
    }
    
    @Override
    public void process(OkPage page, StartContext context,
            List<BasicRequest> queue, List<Proccessable> objectContainer)
            throws Exception {
        Document doc = Jsoup.parse(page.getContent());
        Element h1 = doc.select("h1[id=companyH1]").first();
        if(h1 != null){
            System.out.println("公司全称:"+h1.text());
        }
    }

    @Override
    public void processErrorPage(Page arg0, StartContext arg1)
            throws Exception {
    }

}


OK。现在测试代码就已经完成。我们运行。




二、WebDriverDownloader

使用WebDriverDownloader其实只要把main方法中的prepareCrawlTask("职友网爬虫", DefaultPageDownloader.class)

改成prepareCrawlTask("职友网爬虫", WebDriverDownloader.class)即可完成WebDriverDownloader的设置。

为了体现区别我们在PageCompanyDescript中实现getJavaScript方法来执行一段js代码。getJavaScript实现如下:

    @Override
    public PageScript getJavaScript() {
        return new PageScript() {
            
            @Override
            public void executeJS(HtmlUnitDriver driver) throws Exception {
                WebElement element = driver.findElementById("companyH1");
                driver.executeScript("arguments[0].innerHTML='WebDriverDownloader支持执行JavaScript';", element);
            }
        };
    }

OK运行之后的结果如下图。


10:10:23,572到 10:10:32,056中间相差了9s的时间。这是因为webdriver的js引擎在jvm中执行确实过慢。但大规模抓取过程中还是建议采用抓包抓取的方式。



三、ChromeDriverDownloader

ChromeDriverDownloader和WebDriverDownloader功能上一样。只是下载会调用谷歌浏览器。用户需要安装谷歌浏览器和下载chromedriver。放在谷歌浏览器的安装目录。我的目录是D:\program files (x86)\Chrome。那么chromedriver的路径是D:\program files (x86)\Chrome\chromedriver.exe。

这里解释下ChromeDriver是Chromium team开发维护的,它是实现WebDriver有线协议的一个单独的服务。ChromeDriver通过chrome的自动代理框架控制浏览 器,ChromeDriver只与12.0.712.0以上版本的chrome浏览器兼容。

chromedriver下载地址:https://code.google.com/p/chromedriver/wiki/WheredAllTheDownloadsGo?tm=2

之后我们修改main方法中的代码:

        //设置chromedriver.exe路径
        System.setProperty("webdriver.chrome.driver", "D:\\program files (x86)\\Chrome\\chromedriver.exe");
                 
        String alibaba = "http://www.jobui.com/company/281097/";
        String taobao = "http://www.jobui.com/company/593687/";
        CrawTaskBuilder builder  = CrawlManager.getInstance()
        .prepareCrawlTask("职友网爬虫", ChromeDriverDownloader.class)
        .useThread(2)//使用两个线程下载
        .injectStartUrl(alibaba, PageCompanyDescript.class)
        .injectStartUrl(taobao, PageCompanyDescript.class)
        .usePageEncoding(PageEncoding.UTF8);
        CrawlTask spider = builder.build();
        CrawlManager.getInstance().start(spider);

再次执行会弹出谷歌浏览器界面,我们可以看到爬虫抓取过程了。



控制台输出



可能你会注意到。我们用了useThread(2)//使用两个线程下载。为什么没有出现两个谷歌浏览器同时抓。这里解释是因为我们注入种子URL的方式是使用injectStartUrl它会注入2个StartContext。而StartContext好比是一批种子URL的上下文。同一时间是不能同时使用的。为此GuozhongCrawler提供了DynamicEntrance的概念实现多个种子URL同时共享一个StartContext的功能。想了解DynamicEntrance的话,请继续关注后期GuozhongCrawler系列教程。谢谢大家!

GuozhongCrawler  QQ群 202568714





© 著作权归作者所有

共有 人打赏支持
郭钟
粉丝 17
博文 12
码字总数 7550
作品 1
北京
架构师
GuozhongCrawler实现一个完整爬虫

经过上一节开发环境搭建中的百度新闻的爬虫例子,相信大家已经对GuozhongCrawler简洁的API产生浓厚兴趣了。不过这个还不算一个入门例子。只是完成了简单的下载和解析。现在我们来完成一个比较...

郭钟
2015/04/18
0
3
开源爬虫框架--GuozhongCrawler

guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。模块化设计完全面向业务提供接口,功能覆盖整个爬虫的生命周期(链接提...

郭钟
2015/04/13
3.6K
0
2017软考 | 正式的培训课开始之前,我该做些什么?

转眼又到了2017年上半年的软考考试季(5月20日),攻克要塞(公众号ruankao580)与培训结构合作的课程马上就要开始,基于攻克要塞软考团队以往的面授经验,因此,我们就面授课正式开始之前的...

liuyiok
2017/02/22
0
0
Android的,iOS的,PHP的,大数据的,Java的,web前端的,C++,Python等干货分享

这是一些学习资源,里面有Android的,iOS的,PHP的,大数据的,Java的,web前端的,C++,Python的…. 有的来源地址是在一个公众号的群.感谢群主的分享.有的是我以前收集的.在此我也分享给大家.如果大...

月亮1987
2017/09/04
0
0
2017年应试 | 通过软考(集成、项管)的三个关键要素

有同学咨询教程教辅、学习方法等相关的问题,我们把相关问题合并后在此一并答复。 1.我们在面授过程中强调的是“框架+内容”的学习方法,所谓框架,具体的产物是攻克要塞的知识图谱,通过知识...

liuyiok
2017/04/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

GO冒泡,二分查找

package mainimport("fmt")func main() {var arr [5]int = [5]int{11,13,9,2,25}maopao(&arr)fmt.Println("arr = ", arr) //[2 9 11 13 25]findIndex := binaryFind(&arr, 0......

汤汤圆圆
8分钟前
1
0
工作2年半跳槽面试阿里,成功拿到offer,凭什么?

2015年刚毕业的我,进入了一家小小的公司实习工作,在学校学了三年软件开发的我,还是想去寻找一份互联网行业的工作,这样更能学以致用发挥自己的特长。一直到18年三月份,我辞掉已有的工作,...

java知识分子
12分钟前
1
0
讲述下:Linux的10个最危险的命令

导读 Linux命令行佷有用、很高效,也很有趣,但有时候也很危险,尤其是在你不确定你自己在正在做什么时候。这篇文章将会向你介绍十条命令,但你最好不要尝试着去使用。 当然,以下命令通常都...

问题终结者
17分钟前
1
0
分库分表后如何部署上线?

引言 我们先来讲一个段子 面试官:“有并发的经验没?” 应聘者:“有一点。” 面试官:“那你们为了处理并发,做了哪些优化?” 应聘者:“前后端分离啊,限流啊,分库分表啊。。” 面试官:...

Java烂猪皮
22分钟前
1
0
Redis源码阅读笔记-快速列表

快速列表 快速列表(quicklist)是由压缩列表(ziplist)组成的一个双向链表,链表中,每一个节点都是以压缩列表(ziplist)的结构保存。 在 Redis3.2 后加入的新数据结构,在列表键中取代了双向链...

Jian_Ming
40分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部