文档章节

利用python+selenium_phantomjs批量获取百度指数 第一步 分析

爬虫张小呆
 爬虫张小呆
发布于 2017/05/15 14:01
字数 544
阅读 301
收藏 0
点赞 0
评论 0

一、找到百度指数对应的数据

1.1、

1.2、

1.3、

结论:毛文本都找不着啊。根本就找不着根于百度指数数字相关的任何文本。

但是在style中找着了一个这个

将这个字符串与index.baidu.com拼起来,放进浏览器。会得到一个下载图片,这个图片打开来是这个样子滴。

可以看到这张图片中包含了相对应的百度指数中的数字。

只不过,百度通过加密,以style-css的形式,显示出相对应的"图片形"的数字。

从这个角度来看.想要从百度加密原理的方式来"破解"指数,是比较困难的。

二、

其困难有二、

2.1、没有办法确切的知道这套加密方式,可能百度有几套加密方法,可能刷新一次,加密方式就换了一种。(我试过,刷新过后,背景图片和css都换了。)所以“破解”这种加密方式是及其困难的。

2.2、在以后执行过程中,如果百度增加了加密方式,或者更换了加密方式,就彻底“懵逼”。

三、

那我们能不能尝试另外一种方式来采集百度指数呢?

当时是有的,只不过稍微“笨”一些。

思路

3.1、像人一样打开浏览器

3.2、像人一样打开相应的百度指数的页面

3.3、让机器定位百度指数的x,y坐标

3.4、截屏

3.5、在截图中找到第3.3部记录下来的坐标。截小图

3.6、识别图中的数字

技术细节详见:利用python+selenium_phantomjs批量获取百度指数 第二步 技术细节

 

这里只贴了一个主文件。全部代码请见我的公众号“爬虫张小呆”

有代码经验的同学请见我的github:

https://github.com/plus0318/BaiduIndex

© 著作权归作者所有

共有 人打赏支持
爬虫张小呆
粉丝 1
博文 21
码字总数 13945
作品 0
Web 自动化测试与智能爬虫利器:PhantomJS 简介与实战

估计部分同学没听过这个工具,那先简单介绍下它的背景与作用。 1、PhantomJS 是什么? PhantomJS是一个基于WebKit的服务器端JavaScript API,它无需浏览器的支持即可实现对Web的支持,且原生...

大数据之路
2015/04/28
0
2
聊聊phantomjs的优化措施

序 本文主要小结一下phantomjs的优化措施 phantomjs phantomjs相当于一个后台浏览器,有点内嵌jetty的味道,通常在自动化测试或者爬虫领域用。 优化点 池化技术,避免重复启动 对于其他语言进...

go4it
2017/11/07
0
0
ubuntu 安装phantomjs、chromedriver、geckodriver

一、安装phantomjs 1.从官网下载http://phantomjs.org/download.html 2.加压 tar -zxvf phantomjs-2.1.1-linux-x86_64.tar.bz2 3.mv phantomjs-2.1.1-linux-x86_64 /usr/local/share/phanto......

littlemesieV
04/18
0
0
PhantomJs 2 Headless Chrome

PhantomJS is dead, long live headless browsers 这是一个从PhantomJs走到Headless Chrome的故事,趟过了Highcharts的性能问题的坑,掉入过中文官方文档的错误的坑,尝试过依赖库的源码修改...

charleschu
04/14
0
0
利用Selenium和PhantomJS在Centos下跑测试

做过selenium自动化项目的同学应该都遇到过这样的问题:测试用例太多,运行速度过慢导致团队成员怨声载道。 于是便有了selenium grid和多线程运行selenium测试用例的方法。这些方法各有利弊这...

江边望海
2015/08/06
0
1
java抓取动态生成的网页--吐槽

最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分...

开源oschina
2014/10/16
0
0
[问题解决] Selenium+PhantomJS使用时报错原因及解决方案

在做动态网页爬虫时用到了selenium + PhantomJS,安装好之后运行时报错: 说是 Selenium 已经弃用 PhantomJS ,请使用火狐或者谷歌无界面浏览器。 查找之后得到答案时selenium的版本问题,使用p...

Eappo_Geng
06/13
0
0
zg手册 之 scrapy 开发(4)-- javascript 动态页面的抓取

javascript 动态页面 目前许多网站大量运用js脚本进行一些页面的处理,这些页面的抓取对爬虫是个挑战。 这类页面的抓取,我用到了下面的方法 分析页面(firebug/chrome调试工具 等),找到a...

东昕
2014/04/02
0
2
使用pyspider抓取起点中文网小说数据

简介 pyspider是国人开发的相当好用的爬虫框架。虽然网上教程不是很多,但是文档详细,操作简单,非常适合用来做爬虫练习或者实现一些抓取数据的需求。 本文就以抓取起点中文小说网的小说作品...

某杰
2017/02/22
0
0
关于phoenixframe自动化平台在Linux环境下执行用例说明

phoenixframe自动化平台支持在Linux环境下使用phantomjs,Firefox,chrome执行测试用例。但有以下几个问题需要注意: 1、若无法启动phantomjs,Firefox,chrome的驱动,则请检查存放drivers...

孟飞阳
2015/07/21
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

shell中的函数、shell中的数组、告警系统需求分析

shell中的函数 格式: 格式: function f_name() { command } 函数必须要放在最前面 示例1(用来打印参数) 示例2(用于定义加法) 示例3(用于显示IP) shell中的数组 shell中的数组1 定义数...

Zhouliang6
今天
2
0
用 Scikit-Learn 和 Pandas 学习线性回归

      对于想深入了解线性回归的童鞋,这里给出一个完整的例子,详细学完这个例子,对用scikit-learn来运行线性回归,评估模型不会有什么问题了。 1. 获取数据,定义问题     没有...

wangxuwei
今天
1
0
MAC安装MAVEN

一:下载maven压缩包(Zip或tar可选),解压压缩包 二:打开终端输入:vim ~/.bash_profile(如果找不到该文件新建一个:touch ./bash_profile) 三:输入i 四:输入maven环境变量配置 MAVEN_HO...

WALK_MAN
今天
0
0
33.iptables备份与恢复 firewalld的9个zone以及操作 service的操作

10.19 iptables规则备份和恢复 10.20 firewalld的9个zone 10.21 firewalld关于zone的操作 10.22 firewalld关于service的操作 10.19 iptables规则备份和恢复: ~1. 保存和备份iptables规则 ~2...

王鑫linux
今天
2
0
大数据教程(2.11):keeperalived+nginx高可用集群搭建教程

上一章节博主为大家介绍了目前大型互联网项目的系统架构体系,相信大家应该注意到其中很重要的一块知识nginx技术,在本节博主将为大家分享nginx的相关技术以及配置过程。 一、nginx相关概念 ...

em_aaron
今天
1
0
Apache Directory Studio连接Weblogic内置LDAP

OBIEE默认使用Weblogic内置LDAP管理用户及组。 要整理已存在的用户及组,此前办法是导出安全数据,文本编辑器打开认证文件,使用正则表达式获取用户及组的信息。 后来想到直接用Apache Dire...

wffger
今天
2
0
HFS

FS,它是一种上传文件的软件。 专为个人用户所设计的 HTTP 档案系统 - Http File Server,如果您觉得架设 FTP Server 太麻烦,那么这个软件可以提供您更方便的档案传输系统,下载后无须安装,...

garkey
今天
1
0
Java IO类库之BufferedInputStream

一、BufferedInputStream介绍 /** * A <code>BufferedInputStream</code> adds * functionality to another input stream-namely, * the ability to buffer the input and to * sup......

老韭菜
今天
0
0
STM 32 窗口看门狗

http://bbs.elecfans.com/jishu_805708_1_1.html https://blog.csdn.net/a1985831055/article/details/77404131...

whoisliang
昨天
1
0
Dubbo解析(六)-服务调用

当dubbo消费方和提供方都发布和引用完成后,第四步就是消费方调用提供方。 还是以dubbo的DemoService举例 -- 提供方<dubbo:application name="demo-provider"/><dubbo:registry address="z...

青离
昨天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部