文档章节

Python文件写入编码问题

HappyBKs
 HappyBKs
发布于 2015/01/02 23:20
字数 1168
阅读 807
收藏 28

今天,用Python写文件,发现中国人真不容易,任何编程问题都需要比老外多学一套应对编码的方法。JSP写完了吗?中文编码问题考虑一下;servlet中的url,转发的文本,都有可能与什么gb2312,isoxxxx,utf-8,unicode,ascii扯上关系。以至于,我们每每遇到运行异常,都会“一朝被蛇咬十年怕井绳”般思考“是不是又是编码导致的”。

在python里,编码问题依然是个恶心的问题。之前在VS for Python的IDE环境下,已经饱尝中文编码之苦,貌似VS for Python的源文件不支持除ascii以外的其他编码格式,如果我强行另存,直接导致解释器运行异常。直到转到PyDev for Eclipse才算解决。

今天,用Python写文件,里面是从网上自动爬取的数据,直接报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”。


为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”?本文就来研究一下这个问题。


字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。 

decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。 


encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码。 


因此,转码的时候一定要先搞明白,字符串str是什么编码,然后decode成unicode,然后再encode成其他编码


代码中字符串的默认编码与代码文件本身的编码一致。 

如:s='中文'

如果是在utf8的文件中,该字符串就是utf8编码,如果是在gb2312的文件中,则其编码为gb2312。这种情况下,要进行编码转换,都需要先用decode方法将其转换成unicode编码,再使用encode方法将其转换成其他编码。通常,在没有指定特定的编码方式时,都是使用的系统默认编码创建的代码文件。 


如果字符串是这样定义:s=u'中文' 

则该字符串的编码就被指定为unicode了,即python的内部编码,而与代码文件本身的编码无关。因此,对于这种情况做编码转换,只需要直接使用encode方法将其转换成指定编码即可。



如果一个字符串已经是unicode了,再进行解码则将出错,因此通常要对其编码方式是否为unicode进行判断:

isinstance(s, unicode)  #用来判断是否为unicode 

用非unicode编码形式的str来encode会报错 


 如何获得系统的默认编码? 

#!/usr/bin/env python
#coding=utf-8
import sys
print sys.getdefaultencoding()

该段程序在英文WindowsXP上输出为:ascii 



在某些IDE中,字符串的输出总是出现乱码,甚至错误,其实是由于IDE的结果输出控制台自身不能显示字符串的编码,而不是程序本身的问题。 


如在UliPad中运行如下代码:


s=u"中文"

print s 


会提示:UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。这是因为UliPad在英文WindowsXP上的控制台信息输出窗口是按照ascii编码输出的(英文系统的默认编码是ascii),而上面代码中的字符串是Unicode编码的,所以输出时产生了错误。


将最后一句改为:print s.encode('gb2312')


则能正确输出“中文”两个字。


若最后一句改为:print s.encode('utf8')


则输出:\xe4\xb8\xad\xe6\x96\x87,这是控制台信息输出窗口按照ascii编码输出utf8编码的字符串的结果。


unicode(str,'gb2312')与str.decode('gb2312')是一样的,都是将gb2312编码的str转为unicode编码 


使用str.__class__可以查看str的编码形式


原理说了半天,最后来个包治百病的吧:)



复制代码 代码如下:

#!/usr/bin/env python 
#coding=utf-8 
s="中文" 

if isinstance(s, unicode): 
#s=u"中文" 
print s.encode('gb2312') 
else: 
#s="中文" 
print s.decode('utf-8').encode('gb2312')


-----------------------------------------------------------------------------------------------------------------

我在所有要写入的字符串后面都加入.encode('utf8')

数字可以直接用str()

当然源文件头是

#coding:utf-8
#import sys   
#reload(sys) #
#sys.setdefaultencoding('utf-8')



© 著作权归作者所有

共有 人打赏支持
HappyBKs

HappyBKs

粉丝 651
博文 306
码字总数 481268
作品 0
浦东
程序员
私信 提问
加载中

评论(1)

Asktao
Asktao
很赞,讲的清晰明了!我收到我整理的笔记里了。
谢谢分享!
python(一)变量,常量,编码,数据类型

首先,对于python开发环境,个人推荐使用eclipse+pydev,这样是极好的 O(∩_∩)O python同php一样都属于弱数据类型语言,因此在定义变量的时候,python同样不需要给出数据的类型,然后它比p...

Koma
2015/01/14
0
0
Python源码剖析--Pyc文件解析

PyCodeObject与Pyc文件 通常认为,Python是一种解释性的语言,但是这种说法是不正确的,实际上,Python在执行时,首先会将.py文件中的源代码编译成Python的byte code(字节码),然后再由Pyt...

renwofei423
2011/05/27
0
0
更新hive元数据-python代码

因为之前平台部署的hive下的元数据是放在mysql中的,而mysql由设置了为了拉丁文,导致元数据都是乱码的。 于是开始了更新计划,办法就是用svn中的建表语句,提取出来写到元数据的mysql下,然...

yuppy_zyp
2017/11/14
0
0
Python爬取拉勾网数据分析职位

python文件打开方式详解——a、a+、r+、w+区别 Python模块学习 - openpyxl 1.信息获取,所需工具:拉勾网、Python3。 原来课程地址:python拉勾网爬虫 反爬:伪造浏览器请求 'User-Agent':'...

sinat_23880167
2018/05/27
0
0
python学习——基础(九)

读写文件是最常见的IO操作。Python内置了读写文件的函数,用法和C是兼容的。 try: finally: 读取文件必须执行close方法;另一种方法: with open(r'C:UserssycDesktoptemp.txt') as f: Pyth...

随性_
2015/10/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Spring学习记录

Java类定义配置 @Configuration //标记为配置类@ComponentScan //标记为扫描当前包及子包所有标记为@Component的类@ComponentScan(basePackageClasses = {接口.class,...}) //标记为扫描当...

CHONGCHEN
今天
1
0
如何开发一款以太坊(安卓)钱包系列2 - 导入账号及账号管理

这是如何开发一款以太坊(安卓)钱包系列第2篇,如何导入账号。有时用户可能已经有一个账号,这篇文章接来介绍下,如何实现导入用户已经存在的账号。 导入账号预备知识 从用户需求上来讲,导...

Tiny熊
今天
3
0
intellJ IDEA搭建java+selenium自动化环境(maven,selenium,testng)

1.安装jdk1.8; 2.安装intellJ; 3.安装maven; 3.1 如果是单前用户,配置用户环境变量即可,如果是多用户,则需配置系统环境变量,变量名为MAVEN_HOME,赋值D:\Application\maven,往path中...

不最醉不龟归
今天
4
0
聊聊ShenandoahGC的Brooks Pointers

序 本文主要研究一下ShenandoahGC的Brooks Pointers Shenandoah Shenandoah面向low-pause-time的垃圾收集器,它的GC cycle主要有 Snapshot-at-the-beginning concurrent mark包括Init Mark(P......

go4it
昨天
4
0
Makefile通用编写规则

#简单实用的Makefile模板: objs := a.o b.o test:$(objs) gcc -o test $^ # .a.o.d .b.o.d dep_files := $(foreach f,$(objs),.$(f).d) dep_files := $(wildcard $(dep_files)) ifneq ($(d......

shzwork
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部