文档章节

web项目中的乱码问题原理分析

f
 fame_yao
发布于 11/19 17:25
字数 1703
阅读 15
收藏 3

Java web开发过程经常遇到乱码,本篇我们探讨一下乱码产生的原因与解决思路。

一次完整的Web请求会有4次编解码转换,如下所示。

 

第一次:客户端(通常为浏览器)将字符转换成TCP字节流发向服务器。

这里有一次字符到字节的转换。

第二次:服务器读取客户端发来的TCP字节流,转换成字符串。

这里是一次字节到字符的转换。

第三次:服务器将结果字符串换成TCP字节流发向客户端。

这里又有一次字符到字节的转换。

第四次:客户端读取服务端发过来的响应字节流。转换成字符串显示。

wKioL1hdUjOzKo_uAAAkuIAeVVg499.png-wh_50

一个完整的Web请求就结束了。

 

聪明的你已经发现了,第一次转换和第二次转换是一对对应的编解码。第三次和第四次转换是一对对应的编解码。也就是第一次会哪种字符集编码,第二次就要用相同的字符集解码。

第三次可以选择与前两次不同的字符集,但第四次必须第三次相同。不错,你已经入门了。

 

我们怎么找到第一次的编码的字符。Web客户端程序的作者定然知道他用什么字符发送Web请求,我们就不多说了。我们这里只说浏览器,因为绝大数请求是浏览器发出来的。

 

浏览器在提交post或get表单时,采用是浏览器当前页面的编码。

查看chrome浏览器、360极速浏览器等当前页面编码:点击浏览器右侧菜单图标,然后依次将鼠标移到“工具”→“编码”即可查看或更改当前页面的编码模式。

而当前页的编码是当浏览器获取该页面时,第四次转换决定的。浏览器是根据响应头和响应正文决定采用哪种编码。

发现没有,上面我们说到第一次转换决定了第二次转换的编码,第三次决定了第四次转换的编码。而这里第四次又决定第一次转换的编码。一个环形转换形成了。

A1=A2, A3=A4, A4=A1所以A1=A2=A3=A4. 证明选择相同的字符是完成正确编码的转换的充分条件。

 

说完了第一次编码,我们讲一下第二次解码。

客户端发过的请求报文,分三部分: 请求行,请求头,POST正文。存在乱码可能的位置有两个地方,请求URL的参数部分和POST正文。(英文字符为什么没乱码? 因为采用ASCII码,绝大部分字符集对英文的编码都一样的)。

服务器在解析这两部分时,分别有自已的字符集。拿Tomcat来说,urlEncoding参数指定解析URL参数部分的编码。而request.getCharsetEncoding()指定的是解析POST正文的字符集。

 

说完第二次解码,说一下第三次的编码。

服务端将字符发向客户端,必须转换成字节流。用什么编码好呢? JSP页面有两个设置选项:pageEncoding和contentType。你注意到了吗?

一般情况他们都会同时出现。pageEncoding表示是JSP文件的编码,而contentType是服务端将字符发向客户端的字符集编码。这个字符集会写在响应报文头的Content-Type字段中的。Content-Type:"text/javascript;charset=gbk"。只有contentType存在,好理解。pageEncoding的出现,与contentType有了点情感纠葛。记得是一点。大家知道JSP文件需要编译成Java文件. 

这个过程:1. 读取JSP文件,2. 转换Java类字符串,3.写入JAVA文件。文件都是字节流。读取JSP文件就是采用pageEncoding字符集来解码。写入JAVA的编码一律为UTF-8(因为JAVAC用UTF-8去编译java到class).

 

这一点情感纠葛就在,contentType不存在时候,pageEncoding字符集会代替他。

 

下面第四次是在浏览器显示最终结果的时候。

浏览器采用响应头中的Content-Type字段来解析响应报头,并显示。

如果Content-Type不存在,则浏览器会采用:
<meta http-equiv=Content-Type content="text/html;charset=gb2312"> 

指定的字符集来解码。

 

完了,听上去好像很简哦,但为什么会出现那么多乱码的情况?常见情况:

  1. AJAX请求。

AJAX请求的编码是程序设定的。不在A1到A4这环形家庭中。程序

员没能理解各个编码参数作用点,所以出错,由上面4步的分析。如果还不能理解,我只能呵呵。

  1. urlEncoding各平不一样。

Post正文是由request.getCharsetEncoding()字符集解析,这个字符集是程序控制的。URL的请求参数是由urlEncoding字符集解析的。而urlEncoding一般由服务器设定不一样,比如Tomcat默认为iso8859-1。迁移过程中注意这个。

 

  1. JSP文件保存格式不对。

JSP中pageEncoding指定为GBK,JSP文件却保存成UTF-8,转换就成乱码了。后续不用看,肯定乱。解决乱码问题一定要先排除这个问题。

 

  1. 编码不统一。

一个项目几种编码,什么样的团队呀。子系统内部可以,一跨界,完蛋。

 

如果出现乱码,怎么排查?

 

一般二分法,看看服务端显示是不是正确的,一般将参数System.out输出到Console或者日志(一定要注意日志文件你打开时的编码,本来输出是对的,你反而打开乱了)。

如果能看到正确字符串,一般是第三次或第四次转换不正确,如果看到乱码,前二次转换不正确。第二种情况为绝大多数,因为前一种情况,程序员的参与度很小。

我只说第二种情况:

  1. 首先确定是URL参数,还是POST参数乱码。

  2. 根据1获取urlEncoding或request.getCharsetEncoding.

  3. 通过查看浏览器,或通过httpwatch或tcpdump等工具来确定客户端请求的编码。在我国基本上GBK,UTF-8。UTF-8基本用3个字节表示中文,GBK用两处,很好区分。

  4. 改成一致就好了。

                                              2016-12-24夜,苏州

本文转载自:http://blog.51cto.com/guojuanjun/1885688

共有 人打赏支持
f
粉丝 0
博文 13
码字总数 3425
作品 0
黄石
私信 提问
IntelliJ IDEA 控制台中文乱码

2.2. 系统语言:中文 先说明一下如果系统语言设置为中文是没有乱码问题的,所以网上大量的重复文章的办法是把"File Encoding"设置为GBK或者GB2312,但是很多系统的编码不可能因为一个IDE而更...

xjt2016
2016/09/13
17
0
struts2中文乱码解决方法-转贴

action重定义时使用下面的方式 aaa.action ${showMsg} true 终于在自己的项目中引入struts2了,但一上来就来一个中文乱码的问题。google了半天找了几个不痛不痒的结果,很是不满意。又调试了...

antonie
2010/03/17
554
0
Web开发乱码问题原理分析

Java web开发过程经常遇到乱码,本篇我们探讨一下乱码产生的原因与解决思路。 一次完整的Web请求会有4次编解码转换,如下所示。 第一次:客户端(通常为浏览器)将字符转换成TCP字节流发向服...

anranran
2016/12/24
0
0
古老的3COM交换,是资料太少了?记3COM Switch 2924-SFP Plus交换机维护

这年头当HP收购H3C后,已经很少能看到带着3个O标志的3COM了。可是问题了,一年前一个项目买了一台3COM Switch 2924-SFP Plus交换机(PS:纯交换机,没有任何可读资料)。当时看到后面有一个默...

zisehuainian
06/28
0
0
关于Tomcat下项目中文名在Windows和Linux下编码混乱问题解决

公司的项目一直是在Windows下的Tomcat里面跑着,一切正常,但是今天切到Linux下的Tomcat后,由于编码问题,出现了点小状况。 问题具体是这样的,Web项目中,有个根据表格上传下载的功能,我们...

闻术苑
2013/11/30
0
4

没有更多内容

加载失败,请刷新页面

加载更多

jquery通过id显示隐藏

var $div3 = $('#div3'); 显示 $div3.show(); 隐藏 $div3.hide();

yan_liu
今天
3
0
《乱世佳人》读书笔记及相关感悟3900字

《乱世佳人》读书笔记及相关感悟3900字: 之前一直听「荔枝」,后来不知怎的转向了「喜马拉雅」,一听就是三年。上班的时候听房产,买房了以后听装修,兴之所至时听旅行,分手后听亲密关系,...

原创小博客
今天
3
0
大数据教程(9.6)map端join实现

上一篇文章讲了mapreduce配合实现join,本节博主将讲述在map端的join实现; 一、需求 实现两个“表”的join操作,其中一个表数据量小,一个表很大,这种场景在实际中非常常见,比如“订单日志...

em_aaron
今天
3
0
cookie与session详解

session与cookie是什么? session与cookie属于一种会话控制技术.常用在身份识别,登录验证,数据传输等.举个例子,就像我们去超市买东西结账的时候,我们要拿出我们的会员卡才会获取优惠.这时...

士兵7
今天
3
0
十万个为什么之为什么大家都说dubbo

Dubbo是什么? 使用背景 dubbo为什么这么流行, 为什么大家都这么喜欢用dubbo; 通过了解分布式开发了解到, 为适应访问量暴增,业务拆分后, 子应用部署在多台服务器上,而多台服务器通过可以通过d...

尾生
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部