文档章节

Character Encoding in Java Web (TOMCAT)

徐航
 徐航
发布于 2015/02/27 11:40
字数 1340
阅读 91
收藏 0

[TOC]

原文:Character Encoding Issues

请求体和响应体的默认字符编码

如果没有指定具体的字符编码,servlet会使用ISO-8859-1来对请求进行编码。(响应和请求的)HTTP消息体的字符编码在Content-Type头字段中指定,比如: Content-Type: text/html; charset=ISO-8859-1

When no explicit charset parameter is provided by the sender, media subtypes of the "text" type are defined to have a default charset value of "ISO-8859-1" when received via HTTP. Data in character sets other than "ISO-8859-1" or its subsets MUST be labeled with an appropriate charset value.

对使用标准语法的jsp页面来说,默认的响应字符集通常是ISO-8859-1,但是在XML语法中是UTF-8

###URI编码规范 URI语法规范规定任何US-ASCII字符之外的字符必须使用%转义序列进行编码:每个字符编码成一个%和两个表示该字符码的十六进制码,比如:US-ASCII character code 97 = 0x61,URI没有具体的默认编码。

####关于URI字符编码:

  1. ISO-8859-1ASCII对字符码0x20 ~ 0x7E是相互兼容的,大部分网站使用ISO-8859-1作为默认的查询字符串(query string);
  2. 许多浏览器开始提供使用UTF-8编码URL的选项,而不再是使用ISO-8859-1来编码URI。一些浏览器似乎使用当前页面的编码来对页面中链接的URI进行编码;
  3. HTML 4.0 推荐使用UTF-8来编码查询字符串(query string);
  4. 不确定时,将可能出现编码异常的查询字符串(query string)用POST请求发送。

####关于POST请求编码:

  1. HTTP/1.1表明HTTP消息的接收方必须按照发送方在Content-Type头中指定的编码方式进行编码(前提是接收方支持该编码)。
  2. 目前大部分浏览器不会指定请求的字符集,即使是ISO-8859-1以外的编码。看起来违反了HTTP规范,但是大部分浏览器似乎发送请求时使用当前页面使用的编码来生成POST请求。

###修改GET请求参数的编码

  • Tomcat 使用ISO-8859-1作为整个URL,包括查询字符串(query string),的默认字符编码。
  • 有两种方法来指定如何解释GET请求的参数:
    1. 编辑server.xml文件下的<Connector>元素,设置URIEncoding属性为具体值,比如:URIEncoding="UTF-8"
    2. 编辑server.xml文件下的<Connector>元素,设置useBodyEncodingForURI 属性的值为true,这将导致Connector对GET请求的参数使用请求体的编码。

###修改POST请求参数的编码 通过使用javax.servlet.Filter设置请求编码 5.x

webapps/servlets-examples/WEB-INF/classes/filters/SetCharacterEncodingFilter.java
webapps/jsp-examples/WEB-INF/classes/filters/SetCharacterEncodingFilter.java

6.x

webapps/examples/WEB-INF/classes/filters/SetCharacterEncodingFilter.java

5.5.36+, 6.0.36+, 7.x 从7.0.20开始,过滤器开始变成一等公民并且从examples移到了core,任何web应用不再需要单独编译和绑定即可使用。此方法可以移植到较旧的版本5.5.36和6.0.36。

org.apache.catalina.filters.SetCharacterEncodingFilter

请求编码设置必须在参数被解析之前完成才有效,一旦解析开始,就无法逆转。当第一个获取参数名或参数值的函数被调用参数解析即被触发,确保将这个过滤器配置在所有获取参数名或值的过滤器之前。

Tomcat提供的过滤器

###在所有地方使用UTF-8 为了完全转换到UTF-8编码,需要确保以下的改动:

  1. 设置server.mxl中<Connector>元素的URIEncoding="UTF-8";

  2. 使用字符编码过滤器设置默认编码为UTF-8;

  3. 修改所有JSP页面的Content-Type的包含字符集名:

    一般的JSP页面: <%@page contentType="text/html; charset=UTF-8" %> XML语法的页面(aka JSP Documents): <jsp:directive.page contentType="text/html; charset=UTF-8" />

  4. 修改所有的servlet设置响应的content type和在content type中include的字符集都设置为UTF-8

    response.setContentType("text/html; charset=UTF-8") or response.setCharacterEncoding("UTF-8").

  5. 修改内容生成模板库(Velocity, Freemarker, etc.)使用UTF-8,并指定它们生成的响应的content type为UTF-8;

  6. 禁用所有可能在编码设置过滤器或JSP页面设置Content type 为UTF-8之前访问请求参数的过滤器


###CASE 当在JSP页面使用<%@ page contentType="text/html; charset=UTF-8" %>时,页面GET请求的参数在地址栏以UTF-8编码;

charset="UTF-8"时的编码

当使用<%@ page contentType="text/html; charset=GBK" %>时,页面GET请求的参数在地址栏以GBK编码。

charset="GBK"时的编码

当不加这一句时,浏览器地址栏将以&#Unicode编码显示;

此处输入图片的描述

  • 以上JSP文件以UTF-8编码格式在磁盘存储
  • 如果JSP文件保存编码格式和页面中ContentType的charset编码格式不一致,页面显示内容会乱码
  • Tomcat容器默认使用的ISO-8859-1对请求内容进行编码,所以要对获取的参数值先用ISO-8859-1进行解码,然后再使用charset设置的编码格式进行编码

JSP页面中使用<%@ page pageEncoding="UTF-8"%>,JSP文件按照指定编码格式保存文件,如果没有这句,则使用ContentType中指定的编码格式。

© 著作权归作者所有

共有 人打赏支持
上一篇: 监听者模式
徐航
粉丝 15
博文 25
码字总数 17745
作品 0
武汉
程序员
私信 提问
Tomcat数据源一个马拐的问题

奇怪了,我用eclipse配置数据源直接是在meta-inf下建立一个context.xml,然后写内容如下: web.xml如下: DB Connection jdbc/connPool javax.sql.DataSource Container 这样在写程序,并测试...

张林
2011/04/05
431
4
contentType 与pageEncoding区别

一、contentType 与pageEncoding区别 contentType -- 指定的是JSP页最终 Browser(客户端)所见到的网页内容的编码. 就是 Mozilla的 Character encoding, 或者是 IE6的 encoding. 例如 JSPtw ...

gongweixin
2013/01/05
0
0
web-app root-directory can not be the same as resin.home

@好大的凶兆 你好,想跟你请教个问题: 我最近碰到了一个resin相关的问题,请教你下,不胜感激。web-app root-directory can not be the same as resin.home。 最近在单机弄了个集群,结果总...

idreamblue
2013/07/05
682
1
10 Articles Every Programmer Must Read

Being a Java programmer and Software developer, I have learned a lot from articles titled as What Every Programmer Should Know about ..... , they tend to give a lot of useful an......

dexterman
2014/06/07
0
0
Struts+Hibernate+MyEclipse+Tomcat+MySQL的乱码之解决

Struts+Hibernate+MyEclipse+Tomcat+MySQL的乱码之解决篇[zz] 关键字:Struts Hibernate MyEclipse Tomcat MySQL JSP 乱码 编码出错 内码设定 经过几天的努力,参照诸多兄台的点拔,再加本人...

devid
2011/06/19
0
0

没有更多内容

加载失败,请刷新页面

加载更多

使用Autowired和Qualifier解决多个相同类型的bean如何共存的问题

注意: 实现类UserServiceImpl,MyUserServiceImpl 需要区分:@Service("userServicel") @Service("myUserService") https://blog.csdn.net/russle/article/details/80287763......

qimh
32分钟前
2
0
SQL 语句使用to_char函数时,检索结果有空格

小疯在使用Oracle过程中,使用to_char函数检索表数据时发现检索结果前面会有一个空格,对后续开发有影响。问题很好解决,比较直接对可以做一下trim处理。但是小疯很疑惑为什么会有空格呢,于...

野小疯
33分钟前
1
0
对接比特币钱包的PHP开发包

BtcTool是一个基于第三方服务和离线裸交易实现的PHP比特币应用开发包,适合不希望部署本地 节点旳PHP开发者,开发包主要包含以下特性: 利用第三方服务获取指定地址的utxo集合 离线生成消费裸...

汇智网教程
51分钟前
1
0
【自用】 VHD to VHDX

VHDX: 在VHD 2TB 的基础上提供 64TB的容量。 支持逻辑扇区大小为 4KB,和每块的大小为 256MB,来优化虚拟磁盘性能。 比VHD提供更高的安全性、可靠性和性能。 convert-VHD –path d:\Hyper-v...

Tensor丨思悟
今天
3
0
30 岁转行做Python开发晚吗?而且是零基础

最近有小伙伴问小编,30 岁转行做Python开发晚吗? 小编想说,其实无论男女,只要想学,有这个动力,就直接去行动。无论年龄,无论性别,只要你想一直勇往直前,那么想做的就去做吧~这里有一...

糖宝lsh
今天
13
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部