文档章节

利用python+selenium_phantomjs批量获取百度指数 第一步 分析

爬虫张小呆
 爬虫张小呆
发布于 2017/05/15 14:01
字数 544
阅读 413
收藏 0

一、找到百度指数对应的数据

1.1、

1.2、

1.3、

结论:毛文本都找不着啊。根本就找不着根于百度指数数字相关的任何文本。

但是在style中找着了一个这个

将这个字符串与index.baidu.com拼起来,放进浏览器。会得到一个下载图片,这个图片打开来是这个样子滴。

可以看到这张图片中包含了相对应的百度指数中的数字。

只不过,百度通过加密,以style-css的形式,显示出相对应的"图片形"的数字。

从这个角度来看.想要从百度加密原理的方式来"破解"指数,是比较困难的。

二、

其困难有二、

2.1、没有办法确切的知道这套加密方式,可能百度有几套加密方法,可能刷新一次,加密方式就换了一种。(我试过,刷新过后,背景图片和css都换了。)所以“破解”这种加密方式是及其困难的。

2.2、在以后执行过程中,如果百度增加了加密方式,或者更换了加密方式,就彻底“懵逼”。

三、

那我们能不能尝试另外一种方式来采集百度指数呢?

当时是有的,只不过稍微“笨”一些。

思路

3.1、像人一样打开浏览器

3.2、像人一样打开相应的百度指数的页面

3.3、让机器定位百度指数的x,y坐标

3.4、截屏

3.5、在截图中找到第3.3部记录下来的坐标。截小图

3.6、识别图中的数字

技术细节详见:利用python+selenium_phantomjs批量获取百度指数 第二步 技术细节

 

这里只贴了一个主文件。全部代码请见我的公众号“爬虫张小呆”

有代码经验的同学请见我的github:

https://github.com/plus0318/BaiduIndex

© 著作权归作者所有

共有 人打赏支持
爬虫张小呆
粉丝 1
博文 21
码字总数 13945
作品 0
私信 提问
Web 自动化测试与智能爬虫利器:PhantomJS 简介与实战

估计部分同学没听过这个工具,那先简单介绍下它的背景与作用。 1、PhantomJS 是什么? PhantomJS是一个基于WebKit的服务器端JavaScript API,它无需浏览器的支持即可实现对Web的支持,且原生...

大数据之路
2015/04/28
0
2
php使用QueryList轻松采集JavaScript动态渲染页面

QueryList使用jQuery的方式来做采集,拥有丰富的插件。 下面来演示使用插件抓取JS动态创建的页面内容。 安装 使用Composer安装: 安装QueryList GitHub: https://github.com/jae-jae/QueryL...

土木x
2017/10/07
445
0
ubuntu 安装phantomjs、chromedriver、geckodriver

一、安装phantomjs 1.从官网下载http://phantomjs.org/download.html 2.加压 tar -zxvf phantomjs-2.1.1-linux-x86_64.tar.bz2 3.mv phantomjs-2.1.1-linux-x86_64 /usr/local/share/phanto......

littlemesieV
04/18
0
0
聊聊phantomjs的优化措施

序 本文主要小结一下phantomjs的优化措施 phantomjs phantomjs相当于一个后台浏览器,有点内嵌jetty的味道,通常在自动化测试或者爬虫领域用。 优化点 池化技术,避免重复启动 对于其他语言进...

go4it
2017/11/07
0
0
使用 Node.js 实现的网页抓取

现今,网页抓取已经是一种人所共知的技术了,然而依然存在着诸多复杂性, 简单的网页爬虫依然难以胜任Ajax轮训、XMLHttpRequest,WebSockets,Flash Sockets等各种复杂技术所开发出来的现代化...

oschina
2012/12/30
15.9K
2

没有更多内容

加载失败,请刷新页面

加载更多

Sping之项目中pofile的应用

工程中,我们必须要面对的一件事就是, 开发环境中使用的数据库连接地址等与生产上的不同, 如果上线, 那么我们是否还要手动修改这些地址么, 这样做有很多弊端, 不方便, 这时我们就可以使用spr...

克虏伯
3分钟前
0
0
Linux中安装MySQL

Linux中安装MySQL 一、准备工作 此处准备的操作系统位CentOS 7。 MySQL安装包: MySQL-server-5.6.29-1.linux_glibc2.5.x86_64.rpm MySQL-client-5.6.29-1.linux_glibc2.5.x86_64.rpm 将准备......

星汉
8分钟前
0
0
深入理解Hadoop之HDFS架构

Hadoop分布式文件系统(HDFS)是一种分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的差异是值得我们注意的: HDFS具有高度容错能力,旨在部署在低成...

架构师springboot
12分钟前
0
0
MaxCompute表设计最佳实践

MaxCompute表设计最佳实践 产生大量小文件的操作 MaxCompute表的小文件会影响存储和计算性能,因此我们先介绍下什么样的操作会产生大量小文件,从 而在做表设计的时候考虑避开此类操作。 使用...

阿里云官方博客
12分钟前
0
0
云上领跑,快人一步:华为云抢先发布Redis5.0

12月17日,华为云在DCS2.0的基础上,快人一步,抢先推出了新的Redis 5.0产品,这是一个崭新的突破。目前国内在缓存领域的发展普遍停留在Redis4.0阶段,华为云率先发布了Redis5.0,全面展现了...

中间件小哥
12分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部