文档章节

python转码时出现'illegal multibyte sequen'错误

Jlan
 Jlan
发布于 2015/10/15 11:42
字数 407
阅读 450
收藏 1
点赞 0
评论 0

在Python中,可以对String调用decode和encode方法来实现转码。

比如,若要将某个String对象s从gbk内码转换为UTF-8,可以如下操作 

s.decode('gbk').encode('utf-8′) 
可是,在实际开发中,我发现,这种办法经常会出现异常: 
UnicodeDecodeError: ‘gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence 
这 是因为遇到了非法字符——尤其是在某些用C/C++编写的程序中,全角空格往往有多种不同的实现方式,比如\xa3\xa0,或者\xa4\x57,这些 字符,看起来都是全角空格,但它们并不是“合法”的全角空格(真正的全角空格是\xa1\xa1),因此在转码的过程中出现了异常。 
这样的问题很让人头疼,因为只要字符串中出现了一个非法字符,整个字符串——有时候,就是整篇文章——就都无法转码。 

解决办法: 
s.decode('gbk', ‘ignore').encode('utf-8′) 
因为decode的函数原型是decode([encoding], [errors='strict']),可以用第二个参数控制错误处理的策略,默认的参数就是strict,代表遇到非法字符时抛出异常; 
如果设置为ignore,则会忽略非法字符; 
如果设置为replace,则会用?取代非法字符; 
如果设置为xmlcharrefreplace,则使用XML的字符引用。 

python文档 

decode( [encoding[, errors]]) 
Decodes the string using the codec registered for encoding. encoding defaults to the default string encoding. errors may be given to set a different error handling scheme. The default is 'strict', meaning that encoding errors raise UnicodeError. Other possible values are 'ignore', 'replace' and any other name registered via codecs.register_error, see section 4.8.1.


© 著作权归作者所有

共有 人打赏支持
Jlan
粉丝 2
博文 45
码字总数 17474
作品 0
浦东
python2利用urllib2抓取中文网页乱码的问题

话说晚上上完爬虫抓取班会之后群里有童鞋扔出来了一个网址 www.runoob.com/python/python-exercise-example1.html 并且疑问说这个地址用urllib2抓出来的居然是乱码希望大家一起看看。本着上山...

木木成洋 ⋅ 2017/11/11 ⋅ 0

python2利用urllib2抓取中文网页乱码的问题

话说晚上上完爬虫抓取班会之后群里有童鞋扔出来了一个网址 www.runoob.com/python/python-exercise-example1.html 并且疑问说这个地址用urllib2抓出来的居然是乱码希望大家一起看看。本着上山...

木木成洋 ⋅ 2017/11/02 ⋅ 0

用 Python 编写的 Python 解释器

(点击上方公众号,可快速关注) 翻译: qingyunha 英文:Allison Kaptur http://qingyunha.github.io/taotao/ Allison是Dropbox的工程师,在那里她维护着世界上最大的由Python客户组成的网络...

Python开发者 ⋅ 04/22 ⋅ 0

Python3 读取文件出错: 'gbk' codec can't decode byte 0x8

Python3 读取文件内容的时候出错: for line in f.readlines(): UnicodeDecodeError: 'gbk' codec can't decode byte 0x8e in position 8: illegal multibyte sequence 这个时候给open添加一......

卖小女孩的小火柴 ⋅ 2016/01/08 ⋅ 0

求助 刚学python 学习爬虫

url = "http://www.douban.com/" request = urllib.request.Request(url) response = urllib.request.urlopen(request) data = response.read() print(data) 先上代码,网上的教程大多是pyt......

小良下山化了个缘 ⋅ 2017/12/20 ⋅ 2

请问python 把一个大的dataframe拆分为4个csv文件,但是读取第三个时显示错误是为什么呢

请问:python 把一个大的dataframe拆分为4个csv文件,但是读取第三个时显示错误是为什么呢 ?其它的都可以正常读取,第三个显示错误:'gb2312' codec can't decode byte 0x95 in position 0...

何以笙箫默wonder ⋅ 2016/08/16 ⋅ 2

Python开发一:PyCharm教程

通过前面的Python学习笔记教程,基本已经算入门Python了,接下来为了巩固Python,此后几篇文章重点在于使用Python开发应用。 所谓好马配好鞍,Python开发已经不同于Python入门,单纯的官方解...

viatorsun ⋅ 05/11 ⋅ 0

Linux下遇python中文转码问题

问题描述: 运行环境是Centos,Python版本为2.6;现在通过python获取的HTML代码为GBK,在WINDOWS下输出显示中文字符正常,在LINUX下输出中文字符为乱码; 把PYTHON设置:sys.setdefaultencod...

老猫学菜 ⋅ 2015/07/02 ⋅ 7

python实现简体中文和繁体相互转换

1. opencc-python 如果目录上的链接被屏蔽了,请手动复制 https://pypi.python.org/pypi/opencc-python/ 首先介绍opencc的python实现库,它具有安装简单,翻译准确,使用方便等优点。对于我们...

_周小董 ⋅ 05/14 ⋅ 0

Python常见十六个错误集合,你知道那些?

使用python会出现各种各样的错误,以下是Python常见的错误以及解决方法。 1.ValueError: ‘Conv2d1a3×3’ is not a valid scope name 这个是刚遇到的问题,在LZ自己手打Inception net的时候...

柯西带你学编程 ⋅ 06/08 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

zblog2.3版本的asp系统是否可以超越卢松松博客的流量[图]

最近访问zblog官网,发现zlbog-asp2.3版本已经进入测试阶段了,虽然正式版还没有发布,想必也不久了。那么作为aps纵横江湖十多年的今天,blog2.2版本应该已经成熟了,为什么还要发布这个2.3...

原创小博客 ⋅ 37分钟前 ⋅ 0

聊聊spring cloud的HystrixCircuitBreakerConfiguration

序 本文主要研究一下spring cloud的HystrixCircuitBreakerConfiguration HystrixCircuitBreakerConfiguration spring-cloud-netflix-core-2.0.0.RELEASE-sources.jar!/org/springframework/......

go4it ⋅ 今天 ⋅ 0

二分查找

二分查找,也称折半查找、二分搜索,是一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜素过程结束;如果某一特定元素大于...

人觉非常君 ⋅ 今天 ⋅ 0

VS中使用X64汇编

需要注意的是,在X86项目中,可以使用__asm{}来嵌入汇编代码,但是在X64项目中,再也不能使用__asm{}来编写嵌入式汇编程序了,必须使用专门的.asm汇编文件来编写相应的汇编代码,然后在其它地...

simpower ⋅ 今天 ⋅ 0

ThreadPoolExecutor

ThreadPoolExecutor public ThreadPoolExecutor(int corePoolSize, int maximumPoolSize, long keepAliveTime, ......

4rnold ⋅ 昨天 ⋅ 0

Java正无穷大、负无穷大以及NaN

问题来源:用Java代码写了一个计算公式,包含除法和对数和取反,在页面上出现了-infinity,不知道这是什么问题,网上找答案才明白意思是负的无穷大。 思考:为什么会出现这种情况呢?这是哪里...

young_chen ⋅ 昨天 ⋅ 0

前台对中文编码,后台解码

前台:encodeURI(sbzt) 后台:String param = URLDecoder.decode(sbzt,"UTF-8");

west_coast ⋅ 昨天 ⋅ 0

实验楼—MySQL基础课程-挑战3实验报告

按照文档要求创建数据库 sudo sercice mysql startwget http://labfile.oss.aliyuncs.com/courses/9/createdb2.sqlvim /home/shiyanlou/createdb2.sql#查看下数据库代码 代码创建了grade......

zhangjin7 ⋅ 昨天 ⋅ 0

一起读书《深入浅出nodejs》-node模块机制

node 模块机制 前言 说到node,就不免得提到JavaScript。JavaScript自诞生以来,经历了工具类库、组件库、前端框架、前端应用的变迁。通过无数开发人员的努力,JavaScript不断被类聚和抽象,...

小草先森 ⋅ 昨天 ⋅ 0

Java桌球小游戏

其实算不上一个游戏,就是两张图片,不停的重画,改变ball图片的位置。一个左右直线碰撞的,一个有角度碰撞的。 左右直线碰撞 package com.bjsxt.test;import javax.swing.*;import j...

森林之下 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部