文档章节

phantomjs 的缓存

明月惊鹊
 明月惊鹊
发布于 2016/06/23 17:56
字数 169
阅读 2.1K
收藏 0

在群里看到一位说phantomjs去访问网站,百度统计、cnzz都会认为: 第一次是新访客,后续是老访客。 而在chrome隐身模式里每次都算是新访客。

这不可能吧, 老衲记得以前去爬百度每次都算的,,,,

phantomjs xx.js 这样跑看起来是不缓存到文件了。

phantomjs --cookies-file=/dev/shm/{0}.txt --disk-cache=true --local-storage-path=/dev/shm  --max-disk-cache-size=40960 --web-security=false --proxy={0} phantom.js 这样写貌似是有缓存文件了。

可是实际发现,实际上 phantomjs xx.js 会在当前用户目录下产生隐藏的缓存文件!

centos 下是 /home/delphi/.local/share/Ofi Labs/PhantomJS

记录一下, 以益后人。

© 著作权归作者所有

上一篇: airodump
明月惊鹊
粉丝 29
博文 73
码字总数 20356
作品 0
广州
高级程序员
私信 提问
加载中

评论(3)

明月惊鹊
明月惊鹊 博主
用phantomjs 2.1 来render过gif, 貌似没有你说的这个情况啊。 百度统计是纯js操作dom啊,phantomjs应该是支持这种情况的,我以前爬别人的网站的时候页面里多数都是ajax动态加载、动态插入节点
supmain
supmain
然后我看下百度统计的代码,就是 s.parentNode.insertBefore(hm,s) 这句出了问题,我删了这句就没问题,不知道phantomjs是不是不支持dom一类的操作,然后报错了?但是page.onError没有接收到报错信息啊,感觉是个bug。
supmain
supmain
博主你好,我用phantomjs生成pdf,当访问的网站有百度统计的代码时,类似:<script type="text/javascript">var _hmt=_hmt||[];(function(){var hm=document.createElement("script").....,page.rend( 绝对路径+'my.pdf' ) 渲染会返回false,就是生成文件会失败,但是我通过控制台发现,phantomjs确实访问了url,就是生成失败了。然后我删除百度统计的代码,去掉script标签,render就会返回true,也就是生成pdf文件成功了。实在是费解。。。
聊聊phantomjs的优化措施

序 本文主要小结一下phantomjs的优化措施 phantomjs phantomjs相当于一个后台浏览器,有点内嵌jetty的味道,通常在自动化测试或者爬虫领域用。 优化点 池化技术,避免重复启动 对于其他语言进...

go4it
2017/11/07
115
0
linux下selenium+phantomjs环境

安装依赖软件 yum -y install wget fontconfig # 下载PhantomJS wget -P /tmp/ https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-i686.tar.bz2 # 解压 tar xjf /tmp......

osc_pnw2apz4
2018/03/07
2
0
ubuntu下安装无界面浏览器

ubuntu下安装PhantomJS 1.下载: 32位:wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-i686.tar.bz2 64位:wget https://bitbucket.org/ariya/phantomjs/do......

osc_3uvms8cw
2019/04/16
2
0
PhantomJS+Echarts生成图片(POI第三方集成工具,HttpClient.post)

网友结论:PhantomJS技术方案老旧,推荐使用Puppeteer, 最差也用 casperjs PhantomJS+Echarts生成图片(https://gitee.com/liuzidong/PhantomJSForEcharts) 参考资料 1. ECharts - Java类库(...

近在咫尺远在天涯
2019/09/02
323
0
Linux/Centos下安装部署phantomjs 及使用

PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速,原生支持各种Web标准: DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG。 PhantomJS 可以用...

osc_xngmlta7
2019/01/10
6
0

没有更多内容

加载失败,请刷新页面

加载更多

daily work report on May 25,2020

React-Native工程师 岗位要求 1、三年以上基于React-Native技术完成电商平台app混合开发实际工作经验,熟悉电商平台相关业务。 2、能熟练掌握React-Native,并能基于该技术独立完成相关工作,...

qwfys
23分钟前
23
0
HTTP/3 未来可期?

点击上方“朱小厮的博客”,选择“设为星标” 后台回复"加群",加入新技术 2015 年 HTTP/2 标准发表后,大多数主流浏览器也于当年年底支持该标准。此后,凭借着多路复用、头部压缩、服务器推...

osc_3b0dcpcm
25分钟前
8
0
【原创】JVM系列01 | 开篇

  20大进阶架构专题每日送达   1. Java 虚拟机是什么? 1.1 虚拟机   虚拟机:虚拟的计算机,一个用来执行虚拟计算机指令的软件。   虚拟机分为系统虚拟机和程序虚拟机。   系统虚...

osc_0k23td2u
26分钟前
8
0
Flink 1.10 细粒度资源管理解析

相信不少读者在开发 Flink 应用时或多或少会遇到在内存调优方面的问题,比如在我们生产环境中遇到最多的 TaskManager 在容器化环境下占用超出容器限制的内存而被 YARN/Mesos kill 掉[1],再比...

osc_n0c6719w
27分钟前
17
0
IDEA使用技巧-->查看继承关系

在开发中项目庞大的时候你会不知道当前类在项目中的使用情况,在哪被继承?在哪被实现?和谁有关联? 快捷键 eclipse中是: ctrl+tidea中是: ctrl+H点击当前类, 然后ctrl+H...

宇宝
28分钟前
21
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部