文档章节

Python爬虫之cookielib笔记

 梦回雪夜观花
发布于 2016/02/05 11:07
字数 404
阅读 21
收藏 0

关于Python cookie的保存,有三种形式。

1、保存在内存中

# -*- coding:utf-8 -*-
import urllib2
import cookielib

cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
opener.open('http://www.baidu.com')

print cookie

2、cookie保存在文件中(与Mozilla cookies.txt文件兼容格式)

# -*- coding:utf-8 -*-
import cookielib
import urllib2
 
filename = './cookie.txt'

#声明一个MozillaCookieJar对象实例来保存cookie,之后写入文件
cookie = cookielib.MozillaCookieJar(filename)

#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
handler = urllib2.HTTPCookieProcessor(cookie)

#通过handler来构建opener
opener = urllib2.build_opener(handler)

#创建一个请求,原理同urllib2的urlopen
response = opener.open("http://www.baidu.com")

#保存cookie到文件,gnore_discard的意思是即使cookies将被丢弃也将它保存下来,
#ignore_expires的意思是如果在该文件中 cookies已经存在,则覆盖原文件写入
cookie.save(ignore_discard=True, ignore_expires=True)

#read cookie from file
rcookie = cookielib.MozillaCookieJar()
print '******************before read******************'
print rcookie

print '******************after read******************'
rcookie.load('./cookie.txt')
print rcookie

3、cookie保存在文件中(与libwww-perl Set-Cookie3文件兼容格式)

import cookielib
import urllib2
 
#设置保存cookie的文件,同级目录下的cookie.txt
filename = './cookie.txt'
#声明一个LWPCookieJar对象实例来保存cookie,之后写入文件
cookie = cookielib.LWPCookieJar(filename)
#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
handler = urllib2.HTTPCookieProcessor(cookie)
#通过handler来构建opener
opener = urllib2.build_opener(handler)
#创建一个请求,原理同urllib2的urlopen
response = opener.open("http://www.baidu.com")
#保存cookie到文件,gnore_discard的意思是即使cookies将被丢弃也将它保存下来,
#ignore_expires的意思是如果在该文件中 cookies已经存在,则覆盖原文件写入
cookie.save(ignore_discard=True, ignore_expires=True)

#read cookie from file
rcookie = cookielib.LWPCookieJar()
print '******************before read******************'
print rcookie

print '******************after read******************'
rcookie.load('./cookie.txt')
print rcookie


© 著作权归作者所有

共有 人打赏支持
粉丝 8
博文 13
码字总数 16693
作品 0
武汉
程序员
私信 提问
python 爬虫 cookie 的保存和加载

相关库 Cookie (py2) 等于 http.cookie (py3) cookielib (py2) 等于 http.cookiejar (py3) python3 处理 cookie 保存到变量 保存到文件 从文件加载 cookie python2 处理 cookie 保存到变量 ...

好铁
2016/04/19
1K
0
总结八个好用的Python爬虫技巧

用python也差不多一年多了,python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。 爬虫在开发过程中也有很...

糖宝lsh
11/26
0
0
Python爬虫入门:Cookie的使用

大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户...

天才小熊猫QAQ
2017/11/01
0
0
Python使用cookielib和urllib2模拟登陆新浪微博并抓取数据

这个方法抓下来的网页,得不到相册图片,新浪要js动态生成图片,解决方法可以是:1. 本地用webkit跑抓下来的js;2.抓移动版微博的静态相册。 但都暂时未实现,欢迎回帖好方法,以下是转文。 ...

Honghe
2012/12/09
0
0
python http 组件简介

mechanize https://pypi.python.org/pypi/mechanize/ 中文简介:基于urllib2,完全兼容urllib2,提供浏览历史,表单状态,cookies等功能。 mechanize 0.2.5 Downloads ↓ Stateful programma...

蔡清华
2013/06/06
0
0

没有更多内容

加载失败,请刷新页面

加载更多

day178-2018-12-15-英语流利阅读-待学习

“真蛛奶茶”了解一下?蜘蛛也会产奶了 Lala 2018-12-15 1.今日导读 “蛋白质含量是牛奶的 4 倍,并有着更低的脂肪和含糖量”,听起来诱人又美味的并不是羊奶或豆奶,而是你可能打死都想不到...

飞鱼说编程
18分钟前
3
0
npm WARN optional SKIPPING OPTIONAL DEPENDENCY: fsevents

场景重现 npm install --verbose 安装依赖的时,出现如下警告 强迫症患者表示不能接受 npm WARN optional SKIPPING OPTIONAL DEPENDENCY: fsevents@1.2.4 (node_modules\fsevents):npm WARN......

taadis
22分钟前
1
0
MySQL自增id超大问题查询

引言 小A正在balabala写代码呢,DBA小B突然发来了一条消息,“快看看你的用户特定信息表T,里面的主键,也就是自增id,都到16亿了,这才多久,在这样下去过不了多久主键就要超出范围了,插入...

dragon_tech
35分钟前
3
0
OSChina 周六乱弹 —— 你一口我一口多咬一口是小狗

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @达尔文 :分享Roy Orbison的单曲《She's a Mystery to Me》 《She's a Mystery to Me》- Roy Orbison 手机党少年们想听歌,请使劲儿戳(这里...

小小编辑
今天
279
6
Spring源码学习笔记-1-Resource

打算补下基础,学习下Spring源码,参考书籍是《Spring源码深度解析》,使用版本是Spring 3.2.x,本来想试图用脑图记录的,发现代码部分不好贴,还是作罢,这里只大略记录下想法,不写太细了 ...

zypy333
今天
17
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部