文档章节

使用Puppeteer撸一个爬虫

小草先森
 小草先森
发布于 06/20 23:47
字数 1273
阅读 28
收藏 0
点赞 1
评论 0

Puppeteer是什么

puppeteer是谷歌chrome团队官方开发的一个无界面(Headless)chrome工具。Chrome Headless将成为web应用自动化测试的行业标杆。所以我们很有必要来了解一下它。所谓的无头浏览器是指没有窗口的浏览器。

Puppeteer能做什么

使用puppeteer我们可以让浏览器帮我们自动完成很多事情,比如创建页面的截图或pdf,自动提交表单,UI测试,键盘测试,创建自动化测试环境等。

安装Puppeteer

通过 npm install puppeteer 或者 yarn add puppeteer来安装

注意事项

因为用到了es7的async/await语法进行异步处理。所以node版本最好是v7.6.0或以上。

爬虫实例

对puppeteer有些简单认识之后,我们来做一个爬虫实例加深对puppeteer的印象!

目标网站

如上图所示,我们这次的爬取目标是豆瓣电影网分类区按时间排序,评分6-10分的电影信息。最终获取到的数据是每部电影的海报图片,电影名称,评分以及它的id。

代码分析

1,页面中引入puppeteer包

2,声明爬取页面的url

3, 声明一个基于promise的定时器,后续代码中将会用到。

创建一个立即执行的async 方法,后续代码全部书写在async方法中。

通过puppeteer.launch()方法创建一个无头浏览器chrome对象browser。

通过browser.newPage()方法创建一个页面对象page。该page对象大家可以理解成我们日常打开浏览器之后新建的一个标签页,在该标签页中访问站点。

使用page.goto()访问我们要爬取的站点,第一个参数为爬取站点的url,第二个参数options具体信息大家可查询puppeteer文档,这里使用的waitUntil: 'networkidle2'参数指:当至少500ms内不超过两个网络请求时判断页面请求完成(请原谅我这蹩脚的翻译)具体请看文档中该部分说明:

这里为了确保浏览器请求结束,我们延迟3s再做后续操作。

 

目标页面中通过点击加载更多按钮进行数据异步获取,这里我们需要通过page对象模拟点击操作来显示两页数据,让我们一次能爬取更多的电影信息。

通过page.waitForSelector()方法等待我们需要的dom元素页面中显示出来。通过审查元素我们可以看到在加载更多按钮上声明了more这一class,所以我们要等待的元素用css选择器表示就是'.more',正如上图中的30行代码所示。

随后我们通过循环来控制我们点击加载更多按钮的次数,这里我们这需要模拟点击一次来获取两页数据,若想获取更多数据,可通过修改循环次数来实现。

循环中使用sleep()定时器是为了确保按钮真正的出现在了页面当中做的延迟操作。随后通过page.click('.more')来模拟加载更多按钮点击。

当页面中显示足够我们需要的数据时,接下来我们要做的就是获取这些数据。puppeteer为我们提供了page.evaluate()方法实现在该page页面中执行一段我们自己定义的脚本功能,其中的回调函数则是我们欲执行的代码。

我们可以思考一下,假若我们可以在一个html中插入一段js脚本去获取html中的数据。我们可以通过js原生或jquery去获取相应的dom元素,然后通过dom元素的属性,文本,或者img的src拿到我们想要的信息。首先我们来判断一下该页面中是否引入了jQuery库,如果已引入,我们则可以通过jQuery去操作dom获取数据。

在控制台打印jQuery对象,查看打印结果

通过返回值可以确定该页面是引入了jquery库的,我们可以大胆使用jquery去操作dom

如上面代码截图,我们先var 一个$ 符号接收页面中的jquery对象,然后通过jquery选择器去获取电影图片,名称,评分所在的dom对象。最后通过遍历这些dom对象将我们需要的数据存放到数组links中,完成我们的爬取工作。

最后我们关闭浏览器对象browser并打印我们爬取的数据,检查我们爬虫代码是否成功爬取到电影信息。

ok,控制台成功打印出了我们爬取的电影信息!

© 著作权归作者所有

共有 人打赏支持
小草先森
粉丝 12
博文 40
码字总数 28529
作品 0
武汉
我常用的puppeteer爬虫api

本文共1451字,阅读时间约4分钟 Puppeteer是Chrome团队出的nodejs库(无头浏览器),其中一个功能是网页抓取(可以作为爬虫使用) 详细介绍请看gayhub,更新周期大约是一个月,本文是基于 v1...

aloha66
05/25
0
0
puppeteer入门及实践(1)

前面写过的phantomJs,研究几天后发现phantomJs虽然在业内有一定的影响力,但后继乏力,主要还是缺乏维护人员,导致项目依赖的chrome内核版本太低,无人解决的BUG太多(1000+),现在这个环境...

子非鱼_fish
06/02
0
0
函数计算中使用 puppeteer.js

puppeteer.js github 地址:https://github.com/GoogleChrome/puppeteer API: https://github.com/GoogleChrome/puppeteer/blob/v1.4.0/docs/api.md 函数计算文档:https://help.aliyun.com......

木香丘
06/12
0
0
Puppeteer 初探

我们日常使用浏览器或者说是有头浏览器时的步骤为:启动浏览器、打开一个网页、进行交互。 无头浏览器指的是我们使用脚本来执行以上过程的浏览器,能模拟真实的浏览器使用场景。 有了无头浏览...

赖小赖小赖
2017/10/19
0
0
实例:使用puppeteer headless方式抓取JS网页

google chrome团队出品的puppeteer 是依赖nodejs和chromium的自动化测试库,它的最大优点就是可以处理网页中的动态内容,如JavaScript,能够更好的模拟用户。 有些网站的反爬虫手段是将部分内...

caiyongji
05/09
0
0
用JS搞了一个自动翻译,从此不再头疼看英文书了

小记:作为一个有追求的码农,“懒”,不一定是一个贬义词。有时候“懒”,才是进步的动力! 背景 经常遇到这样的情况,发现一本眼馋的技术书📚,却发现只有英文版。慢慢啃吗?真的很痛苦。...

gavin103
05/21
0
0
无头浏览器 Puppeteer 初探

作者简介 轻声 蚂蚁金服数据前端 我们日常使用浏览器的步骤为:启动浏览器、打开一个网页、进行交互。而指的是我们使用脚本来执行以上过程的浏览器,能模拟真实的浏览器使用场景。 有了无头浏...

蚂蚁金服ProtoTeam
2017/10/17
0
0
听说你【胸大】,会搭配衣服?

知乎上有一个问题,叫做 胸大怎么搭配衣服? 。, 自从关注了这个问题后,就一直被骚扰,萌新一怒之下就撸了一个爬虫,把这些照片都撸下来了,各位老司机评价下,这些人真的会搭配衣服吗? ...

崔斯特
2017/10/26
0
0
Pyspider使用Selenium+Chrome实现爬取js动态页面

背景 最近一直在搞论坛的爬虫。爬着爬着,突然遇到一个论坛的反爬虫机制比较强。例如:http://bbs.nubia.cn/forum-64-1.html。当访问这个页面时,第一次返回的不是html页面,而是加密后的js内...

大道至简_Andy
01/12
0
0
大前端神器安利之 Puppeteer

Puppeteer(中文翻译"木偶") 是 Google Chrome 团队官方的无界面(Headless)Chrome 工具,它是一个 库,提供了一个高级的 API 来控制 DevTools协议上的无头版 Chrome 。也可以配置为使用完整...

晚晴幽草
2017/12/21
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

实现异步有哪些方法

有哪些方法可以实现异步呢? 方式一:java 线程池 示例: @Test public final void test_ThreadPool() throws InterruptedException { ScheduledThreadPoolExecutor scheduledThre......

黄威
今天
0
0
linux服务器修改mtu值优化cpu

一、jumbo frames 相关 1、什么是jumbo frames Jumbo frames 是指比标准Ethernet Frames长的frame,即比1518/1522 bit大的frames,Jumbo frame的大小是每个设备厂商规定的,不属于IEEE标准;...

六库科技
今天
0
0
牛客网刷题

1. 二维数组中的查找(难度:易) 题目描述 在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入...

大不了敲一辈子代码
今天
0
0
linux系统的任务计划、服务管理

linux任务计划cron 在linux下,有时候要在我们不在的时候执行一项命令,或启动一个脚本,可以使用任务计划cron功能。 任务计划要用crontab命令完成 选项: -u 指定某个用户,不加-u表示当前用...

黄昏残影
昨天
0
0
设计模式:单例模式

单例模式的定义是确保某个类在任何情况下都只有一个实例,并且需要提供一个全局的访问点供调用者访问该实例的一种模式。 实现以上模式基于以下必须遵守的两点: 1.构造方法私有化 2.提供一个...

人觉非常君
昨天
0
0
《Linux Perf Master》Edition 0.4 发布

在线阅读:https://riboseyim.gitbook.io/perf 在线阅读:https://www.gitbook.com/book/riboseyim/linux-perf-master/details 百度网盘【pdf、mobi、ePub】:https://pan.baidu.com/s/1C20T......

RiboseYim
昨天
1
0
conda 换源

https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config --add channels https://mir......

阿豪boy
昨天
1
0
Confluence 6 安装补丁类文件

Atlassian 支持或者 Atlassian 缺陷修复小组可能针对有一些关键问题会提供补丁来解决这些问题,但是这些问题还没有放到下一个更新版本中。这些问题将会使用 Class 类文件同时在官方 Jira bug...

honeymose
昨天
0
0
非常实用的IDEA插件之总结

1、Alibaba Java Coding Guidelines 经过247天的持续研发,阿里巴巴于10月14日在杭州云栖大会上,正式发布众所期待的《阿里巴巴Java开发规约》扫描插件!该插件由阿里巴巴P3C项目组研发。P3C...

Gibbons
昨天
1
0
Tomcat介绍,安装jdk,安装tomcat,配置Tomcat监听80端口

Tomcat介绍 Tomcat是Apache软件基金会(Apache Software Foundation)的Jakarta项目中的一个核心项目,由Apache、Sun和其他一些公司及个人共同开发而成。 java程序写的网站用tomcat+jdk来运行...

TaoXu
昨天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部