文档章节

mysql中Incorrect string value乱码问题解决方案

拉风小野驴
 拉风小野驴
发布于 2016/03/17 14:52
字数 1096
阅读 9120
收藏 14

你是否遇到过类似以下错误?

java.sql.SQLException: Incorrect string value: '\xF0\x9F\x92\x9C' for column 'content' at row 1.

产生这种异常的原因在于,mysql中的utf8编码最多会用3个字节存储一个字符,如果一个字符的utf8

编码占用4个字节(最常见的就是ios中的emoji表情字符),那么在写入数据库时就会报错。

mysql从5.5.3版本开始,才支持4字节的utf8编码,编码名称为utf8mb4(mb4的意思是max bytes 4),这种编码方式最多用4个字节存储一个字符。

要想证明这个问题,可以执行以下sql:

select * from
information_schema.CHARACTER_SETS
where CHARACTER_SET_NAME like 'utf8%'

结果如图:

因此,要解决上述异常的发生,需要使用utf8mb4编码。


解决数据库编码后,还需要解决客户端Connection连接对象使用的编码问题。

调用创建的Connection对象执行以下sql:

conn.createStatement().execute("SET names 'utf8mb4'");

如果项目中使用了DataSource数据源,只需要对数据源进行相关配置即可,这里以apache的DBCP数据源为例讲解,在spring框架下配置如下:

<!-- 数据源 -->
	<bean id="dataSource" class="org.apache.commons.dbcp.BasicDataSource">
		<property name="driverClassName" value="com.mysql.jdbc.Driver"></property>
		<property name="url" value="jdbc:mysql://${${data-source.prefix}.data-source.host-name}:3306/${${data-source.prefix}.data-source.db-name}?characterEncoding=utf8&amp;autoReconnect=true&amp;failOverReadOnly=false&amp;maxReconnects=10&amp;allowMultiQueries=true" />
		<property name="username" value="${${data-source.prefix}.data-source.username}" />
		<property name="password" value="${${data-source.prefix}.data-source.password}" />
		<property name="maxActive" value="150" />
		<property name="maxIdle" value="2" />
		<property name="testOnBorrow" value="true" />
		<property name="testOnReturn" value="true" />
		<property name="testWhileIdle" value="true" />
		<property name="validationQuery" value="select 1" />
		<!-- 此配置用于在创建Connection对象时执行指定的初始化sql -->
		<property name="connectionInitSqls">
			<list>
				<value>set names 'utf8mb4'</value>
			</list>
		</property>
	</bean>

以下解释引用自mysql参考手册:

SET NAMES 'charset_name'

SET NAMES显示客户端发送的SQL语句中使用什么字符集。

因此,SET NAMES 'utf8mb4'语句告诉服务器:“将来从这个客户端传来的信息采用字符集utf8mb4”。它还为服务器发送回客户端的结果指定了字符集。(例如,如果你使用一个SELECT语句,它表示列值使用了什么字符集。)


SET NAMES 'x'语句与这三个语句等价:


mysql> SET character_set_client = x;

mysql> SET character_set_results = x;

mysql> SET character_set_connection = x;

执行完此sql语句后,通过此连接对象后续创建的Statement都会成功地执行了。


讲到这里,问题已经得到完美解决,但是我又联想到一个新的问题:

jvm虚拟机运行时,内存中的字符串采用utf-16编码,对于ios中的emoji表情这种用4字节utf-8编码存储的字符,在java运行时又是怎样存储的呢?

于是,我找了一个emoji字符(4个字节的值分别为0xf0,0x9F,0x92,0x9c),做了以下试验。

byte[] bytes = new byte[] { (byte) 0xf0, (byte) 0x9F, (byte) 0x92, (byte) 0x9c };
		String s = new String(bytes, Charset.forName("utf-8"));
		System.out.println("length:"+s.length());
		for (int i=0;i<s.length();i++) {
			int ch = s.charAt(i);
			System.out.println("0x"+Integer.toHexString(ch));
		}

执行结果如下:

由结果可以看出,unicode值(也叫codePoint码点,后面介绍API会用到)大于0xffff的单个字符,jvm内部占用2个char的长度(也就是4个字节)存储。

所有大于0xffff的字符,全都在UTF编码表的辅助平面内(域辅助平台对应的是基础平面,简称BMP)。因此对于String中的某个char,是基础平面字符,还是辅助平面字符的一部分,也很好做出判断。下面介绍java.lang.Character中的一些API:

以下描述中,码点即是字符的unicode值

Character中API
描述
isValidCodePoint(int codePoint):boolean 判断输入码点是否是有效的,所有属于UTF定义平面的码点都是有效的
isBmpCodePoint(int codePoint):boolean 判断输入码点是否属于基础平面,即:0x0000~0xffff
isSupplementaryCodePoint(int codePoint):boolean 判断输入码点是否属于辅助平面,即:码点>0xffff
isSurrogate(char ch):boolean 判断输入的字符是否辅助平面字符的一部分

获取String中某个字符的码点也很容易,调用String.codePointAt(int index):int即可。


最后,关于unicode、UCS-2、UCS-4、UTF-8、UTF-16编码之间的关系,请读者自行百度。文章太多了,在此就不多做介绍了。


参考资料:

  • mysql utf8mb4与emoji表情:

    http://my.oschina.net/wingyiu/blog/153357

  • 关于 MySQL UTF8 编码下生僻字符插入失败/假死问题的分析

    http://my.oschina.net/leejun2005/blog/343353

© 著作权归作者所有

共有 人打赏支持
拉风小野驴
粉丝 62
博文 24
码字总数 26595
作品 0
昌平
高级程序员
私信 提问
加载中

评论(1)

wffger
wffger
我也遇到这个问题,原因是有些记录包含'滘',修改ODBC默认字符集为gbk后,问题解决了。
【mysql】ERROR 1366 (HY000)

错误 ERROR 1366 (HY000): Incorrect string value: 'xE5xBCxA0xE4xB8x89' for column 'name' at row 1 原因 字符集服务端和客户端采用的不是utf-8编码,不能识别中文 解决方式 首先用一下命......

zlt995768025
2018/03/21
0
0
MySQL中如何处理中文字符问题

最有力的解决办法链接: http://www.busfly.net/post/58.html -------------------------------------------------------------------------- MySQL的老手们: 本人用MySQL时不能够处理中文,......

小梅菜鸟
2012/05/15
0
0
MySQL异常问题解决方案小结

1.Mysql中文存储乱码 2.Mysql emoji表情数据存储异常 3.Mysql启动错误:Fatal error: Can't open and lock privilege tables: Table 'mysql.host' doesn't exist. 4.异常:server: "Host '19......

李朝强
2018/07/04
0
0
django admin 中文报错incorrect string value解决方案

对于错误" Incorrect string value: 'xE6xA2xB5xE8x92x82...'for column 'object_repr' at row 1 解决方法是设置djangoadminlog表的objectrepr一项使用utf8unicode_ci; 对于错误" Incorrect......

不容置喙
2014/07/30
0
0
关于mysql中插入中文的问题

数据库:demo 表:user 编码:utf-8; 具体表结构: +----------+-------------+------+-----+---------+-------+ | Field | Type | Null | Key | Default | Extra | +----------+-------------+-......

Cycle_C
2012/03/08
1K
6

没有更多内容

加载失败,请刷新页面

加载更多

php register_globals将接收参数转为全局变量

最近在看公司旧的系统的时候发现一个很奇怪的事情,很多页面用的变量找不到源头,没有定义也不是接收,意思是腾空出现的。 经排查,原来是php配置做的好事:register_globals = On。registe...

shikamaru
27分钟前
9
0
Linux 交换分区swap

一、创建和启用swap交换区 如果你的服务器的总是报告内存不足,并且时常因为内存不足而引发服务被强制kill的话,在不增加物理内存的情况下,启用swap交换区作为虚拟内存是一个不错的选择,我...

Yue_Chen
28分钟前
3
0
notepad++如何使用列块编辑模式?

notepad++如何使用列块编辑模式? 听语音 | 浏览:18584 | 更新:2015-12-22 10:56 | 标签:软件 1 2 3 4 5 6 7 分步阅读 notepad++是一款功能强大的文本编辑器,可以支持各种不同的文本类型...

linjin200
30分钟前
1
0
Java 基础语法

一个Java程序可以认为是一系列对象的集合,而这些对象通过调用彼此的方法来协同工作。下面简要介绍下类、对象、方法和实例变量的概念。 对象:对象是类的一个实例,有状态和行为。例如,一条...

二九结狐六体
34分钟前
3
0
研发团队资源成本优化实践

背景 工程师主要面对的是技术挑战,更关注技术层面的目标。研发团队的管理者则会把实现项目成果和业务需求作为核心目标。实际项目中,研发团队所需资源(比如物理机器、内存、硬盘、网络带宽...

美团技术团队
39分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部