文档章节

利用python+selenium_phantomjs批量获取百度指数 第一步 分析

爬虫张小呆
 爬虫张小呆
发布于 2017/05/15 14:01
字数 544
阅读 352
收藏 0

一、找到百度指数对应的数据

1.1、

1.2、

1.3、

结论:毛文本都找不着啊。根本就找不着根于百度指数数字相关的任何文本。

但是在style中找着了一个这个

将这个字符串与index.baidu.com拼起来,放进浏览器。会得到一个下载图片,这个图片打开来是这个样子滴。

可以看到这张图片中包含了相对应的百度指数中的数字。

只不过,百度通过加密,以style-css的形式,显示出相对应的"图片形"的数字。

从这个角度来看.想要从百度加密原理的方式来"破解"指数,是比较困难的。

二、

其困难有二、

2.1、没有办法确切的知道这套加密方式,可能百度有几套加密方法,可能刷新一次,加密方式就换了一种。(我试过,刷新过后,背景图片和css都换了。)所以“破解”这种加密方式是及其困难的。

2.2、在以后执行过程中,如果百度增加了加密方式,或者更换了加密方式,就彻底“懵逼”。

三、

那我们能不能尝试另外一种方式来采集百度指数呢?

当时是有的,只不过稍微“笨”一些。

思路

3.1、像人一样打开浏览器

3.2、像人一样打开相应的百度指数的页面

3.3、让机器定位百度指数的x,y坐标

3.4、截屏

3.5、在截图中找到第3.3部记录下来的坐标。截小图

3.6、识别图中的数字

技术细节详见:利用python+selenium_phantomjs批量获取百度指数 第二步 技术细节

 

这里只贴了一个主文件。全部代码请见我的公众号“爬虫张小呆”

有代码经验的同学请见我的github:

https://github.com/plus0318/BaiduIndex

© 著作权归作者所有

共有 人打赏支持
爬虫张小呆
粉丝 1
博文 21
码字总数 13945
作品 0
Web 自动化测试与智能爬虫利器:PhantomJS 简介与实战

估计部分同学没听过这个工具,那先简单介绍下它的背景与作用。 1、PhantomJS 是什么? PhantomJS是一个基于WebKit的服务器端JavaScript API,它无需浏览器的支持即可实现对Web的支持,且原生...

大数据之路
2015/04/28
0
2
聊聊phantomjs的优化措施

序 本文主要小结一下phantomjs的优化措施 phantomjs phantomjs相当于一个后台浏览器,有点内嵌jetty的味道,通常在自动化测试或者爬虫领域用。 优化点 池化技术,避免重复启动 对于其他语言进...

go4it
2017/11/07
0
0
ubuntu 安装phantomjs、chromedriver、geckodriver

一、安装phantomjs 1.从官网下载http://phantomjs.org/download.html 2.加压 tar -zxvf phantomjs-2.1.1-linux-x86_64.tar.bz2 3.mv phantomjs-2.1.1-linux-x86_64 /usr/local/share/phanto......

littlemesieV
04/18
0
0
PhantomJs 2 Headless Chrome

PhantomJS is dead, long live headless browsers 这是一个从PhantomJs走到Headless Chrome的故事,趟过了Highcharts的性能问题的坑,掉入过中文官方文档的错误的坑,尝试过依赖库的源码修改...

charleschu
04/14
0
0
利用Selenium和PhantomJS在Centos下跑测试

做过selenium自动化项目的同学应该都遇到过这样的问题:测试用例太多,运行速度过慢导致团队成员怨声载道。 于是便有了selenium grid和多线程运行selenium测试用例的方法。这些方法各有利弊这...

江边望海
2015/08/06
0
1

没有更多内容

加载失败,请刷新页面

加载更多

《看图轻松理解数据结构与算法系列》导引贴

最近学习数据结构,遇到一个很喜欢的博主,他的文章图文并茂,理解起来很容易。特此开贴记录,方便反复阅读。 博主主页 https://juejin.im/user/57c3970f79bc440063e58518/posts?sort=popul...

科陆李明
32分钟前
0
0
20.27 分发系统介绍~ 20.30 expect脚本传递参数

分发系统介绍分发系统-expect讲解(也就是一个分发的脚本)场景:业务越来越大,网站app,后端,编程语言是php,所以就需要配置lamp或者lnmp,最好还需要吧代码上传到服务器上;但是因...

洗香香
46分钟前
2
0
设计一个百万级的消息推送系统

前言 首先迟到的祝大家中秋快乐。 最近一周多没有更新了。其实我一直想憋一个大招,分享一些大家感兴趣的干货。 鉴于最近我个人的工作内容,于是利用这三天小长假憋了一个出来(其实是玩了两...

crossoverJie
52分钟前
2
0
软件架构:5种你应该知道的模式

Singleton(单例模式)、仓储模式(repository)、工厂模式(factory)、建造者模式(builder)、装饰模式(decorator)……大概每个上课听讲的程序员都不会陌生——软件的设计模式为我们提供...

好雨云帮
今天
3
0
OSChina 周二乱弹 —— 这只是一笔金钱交易

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @小小编辑:推荐歌曲《暮春秋色》- 窦唯 / 译乐队 《暮春秋色》- 窦唯 / 译乐队 手机党少年们想听歌,请使劲儿戳(这里) @我没有抓狂:跨服聊...

小小编辑
今天
1K
19

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部