文档章节

python 爬取网页的乱码问题

Airship
 Airship
发布于 2016/03/10 04:01
字数 62
阅读 102
收藏 2

先根据这个站点的编码,统一先该编码解码,解码得到unicode编码(python默认编码类型),再统一编码成utf-8。


SITE_CODE='gb2312'
#SITE_CODE='utf-8'
html_str.decode(SITE_CODE).encode('utf-8')

print html_str


© 著作权归作者所有

Airship
粉丝 42
博文 991
码字总数 20371
作品 0
南京
高级程序员
私信 提问
关于中文网页爬虫显示乱码的问题

大家好,我在爬去一个中文网页的时候碰到了乱码的问题,试了很久都没成功,请帮我看下问题出在哪里? 网址: http://www.duxieren.com/shanghaishuping/201511.shtml 编码: UTF-8 系统: win...

大猫991
2016/01/03
1K
1
学习python12小时后,告诉想学爬虫的你,别怕,爬虫,没那么难抓

怎样学编程 编程就如同你学习开车,即使,你可以一口气,说出一辆车的全部零部件,以及内燃机进气、压缩、做功和排气过程,但你就是不去练如何开车,怎么上路。你确定,你敢开吗?你敢开,我...

糖宝lsh
2018/10/06
0
0
分分钟几万上下!用Python爬取包图网视频(附代码)切勿商用!

分析网页数据结构 目标抓取全站视频数据保存在本地, 并以网站视频名命名视频文件。 经分析我们可以发现总站数据 我们可以从这四这选项下手 分析网页数据格式 网页数据为静态 抓取下一页链接...

Python新世界
2018/07/24
0
0
5个python爬虫教材,让小白也有爬虫可写,含视频教程!

认识爬虫   网络爬虫,如果互联网是一张蜘蛛网,网络爬虫既是一个在此网上爬行的蜘蛛,爬了多少路程即获取到多少数据。 python写爬虫的优势   其实以上功能很多语言和工具都能做,但是用...

柯西带你学编程
2018/06/12
0
0
Python3-Requests库入门及爬取实战

实验环境准备 Python环境安装 腾讯云所提供的的镜像中已经包含了 Python 3.5 大部分情况我们只需要单独安装 即可 sudo apt-get updatesudo apt-get install python3 python3-pip -y request...

海盐宝宝
2018/08/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

跨域的理解,以及解决方案!

/*什么是跨域? * 跨域的主要原因是浏览器的同源策略。 * =>>所谓的同源策略就是A网页设置的 Cookie,B网页不能打开,除非这两个网页"同源"。 * 什么是同源? * =>>同源就是协议相同、域名相同...

流年那么伤
8分钟前
1
0
Nginx配置try_fiels,php无法获取$_GET参数

平时开发都是用LNMP,新安装的虚拟机在配置nginx的rewrite的时候使用try_files命令。但是在写的时候配置成“try_files $uri $uri/ /index.php?q=args;”, 在PHP的web程序中,打印$_GET为空。...

叫我哀木涕
8分钟前
0
0
【原创】Microsoft Edge可以用localhost访问但无法用IP访问

Microsoft Edge可以用localhost和127.0.0.1访问但无法用本机IP访问, chrome ie都可以推测是edge的问题,网络是专用网络,防火墙也关了: 在edge里 按F12 以在控制台里看到这句 CONSOLE21301...

shzwork
9分钟前
0
0
Python利用数学方程式画4种不一样的心型图案

前言 下面这四个心型图案,是通过科学地计算,根据数学方程式生成的,虽然做的不是特别完美,但是基本的还是能实现的 第一个心型 结果图 第二心型 结果图 学习从来不是一个人的事情,要有个相互监...

A_裙232550246
9分钟前
0
0
微信带场景参数的二维码生成与使用?

微信公众号推广时,用户通过扫二维码关注公众号,需要统计用户是通过谁的二维码进行关注。 在用户扫码关注公众号时,二维码带上推广者的参数,在关注公众号后,获取到该推广者的参数。 目前有...

wxgzhgncj
9分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部