文档章节

Java字符集和编码

ksfzhaohui
 ksfzhaohui
发布于 2012/12/12 21:21
字数 1834
阅读 285
收藏 3
点赞 1
评论 0
1.为什么要编码
计算机本质上只能处理数值,每个字符在计算机中只能用一个整数来表示,这种整数称为字符编码。

2.编码格式
ASCII码
总共有 128 个,用一个字节的低 7 位表示,0~31 是控制字符如换行回车删除等;32~126 是打印字符,可以通过键盘输入并且能够显示出来。

ISO-8859-1
ISO 组织在 ASCII 码基础上又制定了一些列标准用来扩展 ASCII 编码,其中 ISO-8859-1 涵盖了大多数西欧语言字符,
所有应用的最广泛。ISO-8859-1 仍然是单字节编码,它总共能表示 256 个字符。

GB2312
它的全称是《信息交换用汉字编码字符集 基本集》,只收录简体汉字,共有7445个字符。
机内码使得汉字编码的空间为0xA1A1到0xF7FE,每个汉字的编码为两个字节,每个字节的编码在0xA1到0xFE之间
ASCII的编码是一个字符一个字节,每个字节的编码在0x00到0x7F之间,这样就使得英文和汉字的编码空间不再重叠.
注:区号加位号可以作为一种编码,这种编码称为区位码.区位码不能直接在机器中使用,因为它的编码空间与ASCII重叠,
为了解决这个问题GB2312的字符在机器中实际采用的是机内码,通过一个简单的对应关系来实现两者之间的转换。

GBK
全称叫《汉字内码扩展规范》,GBK包含了GB2312的全部字符,同时还包括了Big5中的全部字符以及日文、韩文中使用的汉字。 
对于原GB2312中的字符,GBK的编码就是原来的机内码。
GBK的编码空间从0x8140到0xFEFE,每个汉字的编码仍为两字节,其中第一个字节8位二进制数的最高位始终是1,
这使得GBK的编码空间可以避开ASCII的编码空间。 

注:<问题>:虽然GB2312和GBK都有效的避开了和ASCII编码空间的重叠,但是并没有和其他一些编码(比如Big5)避开重叠,
这样的话有可能我的一段文字到别人那边就变成另外一段文字,并不是很明显的出现乱码。

解决这种问题的最好办法是统一编码,不管简体字还是繁体字,还有日文、韩文中使用的汉字,全部统一编码,
使得每个编码对应的汉字是唯一的,并且与世界上所有其它语言的字符编码不重叠,这就是Unicode。

Unicode编码:
编码方法是首先将所有的字符排列在若干个平面上,每个平面划分为256行,每行256列,从而每个平面存放64K(1K=1024)个字符。 
每个字符所在的平面号、行号和列号称为码位(code point),码位可作为字符的编码。 
平面0是最重要的平面,称为BMP(Basic Multilingual Plane),其中基本上包括了当今世界上各种语言使用的字符,
当然也包含中、日、韩三种文字中使用的所有汉字。 

理论上ISO/IEC 10646预留了64K个平面,这样平面号的编码范围将为0x0000~0xFFFF,加上平面内的行号和列号,
字符码位的范围将是0x00000000~0xFFFFFFFF,也就是说,必须用4个字节来存放一个字符的码位。 Unicode仅使用编号0x00到0x10的17个平面,
其码位范围为0x000000~0x10FFFF,也需要用3个字节来存放。 但是我们实际使用的字符绝大多数都在BMP中,
只是偶尔使用其它平面的字符,因此可以设计一种两字节的编码,使得BMP中的字符编码就是它们在BMP中的码位,
而其它平面的字符用一种代替的方法来表示,这样的编码就是UTF-16。

UTF-16
UTF-16 具体定义了 Unicode 字符在计算机中存取方法。UTF-16 用两个字节来表示 Unicode 转化格式,这个是定长的表示方法,
不论什么字符都可以用两个字节表示,两个字节是 16 个 bit,所以叫 UTF-16。
UTF-16 表示字符非常方便,每两个字节表示一个字符,这个在字符串操作时就大大简化了操作,
这也是 Java 以 UTF-16 作为内存的字符存储格式的一个很重要的原因。

UTF-8
UTF-8采取不定长的编码方法:
ASCII字符的编码只用一个字节,并且其编码就是原来的ASCII码, 其它字符的编码从2个字节到4个字节不等。 
每个字符编码的第一字节指出该字符编码的字节数:其中第一个二进制数0的左边有多少个1,该字符编码就有多少个字节;
如果第一位就是0,则该字符编码只有一个字节。 
例如,某个字符编码第一字节是0xxxxxxx(x表示任意的二进制数),则该字符的UTF-8编码只有一个字节。
若某个字符编码第一字节为110xxxxx,则该字符的编码将有两个字节。对于两个字节及其以上的UFT-8编码,
从第二字节开始,每个字节开头两个二进制数都是10。

java中常用到编码的地方

用一句话描述一下编码:任何我们输入的字符当需要被计算机保存或者用于传输时都需要进行编码。

问题在于需不需要你去显示的编码<不知道准不准确>

1.内存中操作的编码
Java 中用 String 表示字符串,所以 String 类就提供转换到字节的方法,也支持将字节转换为字符串的构造函数。

String s = "中国"; 
byte[] b = s.getBytes("UTF-8"); 
String n = new String(b,"UTF-8");

Charset 提供 encode 与 decode 分别对应 char[] 到 byte[] 的编码和 byte[] 到 char[] 的解码
Charset charset = Charset.forName("UTF-8"); 
ByteBuffer byteBuffer = charset.encode(string); 
CharBuffer charBuffer = charset.decode(byteBuffer);

2.I/O 操作中存在的编码:I/O 包括磁盘 I/O 和网络 I/O
Reader 类是 Java 的 I/O 中读字符的父类,而 InputStream 类是读字节的父类,InputStreamReader 类就是关联字节到字符的桥梁,
它负责在 I/O 过程中处理读取字节到字符的转换,而具体字节到字符的解码实现它由 StreamDecoder 去实现,
在 StreamDecoder 解码过程中必须由用户指定 Charset 编码格式。值得注意的是如果你没有指定 Charset,将使用本地环境中的默认字符集

写的情况也是类似,字符的父类是 Writer,字节的父类是 OutputStream,通过 OutputStreamWriter 转换字符到字节。
// 写字符换转成字节流
 FileOutputStream outputStream = new FileOutputStream("c:/stream.txt"); 
 OutputStreamWriter writer = new OutputStreamWriter( 
 outputStream, "UTF-8"); 
 try { 
    writer.write("中国"); 
 } finally { 
    writer.close(); 
 } 
 // 读取字节转换成字符
 FileInputStream inputStream = new FileInputStream(file); 
 InputStreamReader reader = new InputStreamReader( 
 inputStream, charset); 
 StringBuffer buffer = new StringBuffer(); 
 char[] buf = new char[64]; 
 int count = 0; 
 try { 
    while ((count = reader.read(buf)) != -1) { 
        buffer.append(buffer, 0, count); 
    } 
 } finally { 
    reader.close(); 
 }

© 著作权归作者所有

共有 人打赏支持
ksfzhaohui

ksfzhaohui

粉丝 296
博文 126
码字总数 153828
作品 3
南京
高级程序员
Win10系统下eclipse的基本配置 编码格式 classpath原理 import工作机制

eclipse是用来编译java文件的一个软件 国内也有汉化版,我也不知道该怎么上传……忘了从哪里搞来了 不过用了一段时间就还原原来的配置了因为网上的教程之类的方法都是英文版的 为了和网上的配...

codingcoge ⋅ 03/17 ⋅ 0

Common Gui Tools 1.4 发布,Java GUI 实用小工具集

Java GUI实用小工具集 Common Gui Tools 新增:二维码生成解析、时间戳转换、Json格式化、文本文件切分等。 Common Gui Tools 是用java编写,GUI界面的实用小工具集,1.4版有20个小工具: 1,...

bs2004 ⋅ 04/22 ⋅ 0

关于 Java IO(二):从面向字节到面向字符

在上一篇文章中,我们以面向字节的输入为例,介绍了 Java 中 IO 的结构。在这篇文章中,主要介绍面向字节的输入输出是怎么转换到面向字符的输入输出的。 面向字符的输入输出指的是输入输出的...

Happioo ⋅ 04/09 ⋅ 0

JNI开发流程与引用数据类型的处理

今天我们来看下Java JNI,先看下维基百科给的定义, JNI, Java Native Interface, Java本地接口,是一种编程框架,使得Java虚拟机中的Java程序可以调用本地应用或库,也可以被其他程序调用。...

juexingzhe ⋅ 05/04 ⋅ 0

tomcat+redis实现session

1、网上查找资料,大部分从下面网址下载java代码,因是几年前实现的(大概2,3年前吧),不支持tomcat8 https://github.com/jcoleman/tomcat-redis-session-manager 2、在myeclipse 新建一个m...

小小子之家 ⋅ 05/06 ⋅ 0

甲骨文称 Java 序列化的存在是个错误,计划删除

甲骨文计划从 Java 中去除序列化功能,因其在安全方面一直是一个棘手的问题。 Java 序列化也称为 Java 对象序列化,该功能用于将对象编码为字节流...Oracle 的 Java 平台小组的首席架构师 Ma...

达尔文 ⋅ 05/28 ⋅ 0

Sharding-JDBC 最大努力型事务理解

Sharding-JDBC 最大努力型事务理解。 看的的1.5.4版本 最新的2.x版本 demo查看 https://github.com/shardingjdbc/sharding-jdbc/blob/1.5.4/sharding-jdbc-example/sharding-jdbc-example-j......

xiaomin0322 ⋅ 06/06 ⋅ 0

浅谈把Java字节码译为C代码的意义

Java字节码是基于栈的一种编码。这种编码方式十分方便解释器的设计,但同时不利于程序分析,因此一些高效的代码优化技术无法方便的Java字节码上实现。 先大体说说Java字节码的特点。目前版本...

小欣妹妹 ⋅ 04/26 ⋅ 0

OpenRASP v0.31 支持 resin 服务器并解决 JDK 兼容性

OpenRASP v0.31 已发布,OpenRASP 是百度安全推出的一款免费、开源的自适应安全产品 更新如下: 重大变更 Java 版本 在升级前,用户需要手动删除 rasp/conf/rasp-log4j.xml 文件 待应用启动后...

OpenRASP ⋅ 05/22 ⋅ 0

DataCleaner 5.4.1 修复了与 Java 9, 10 的兼容性问题

DataCleaner 5.4.1 发布,此次更新修复了与 Java 9 和 Java 10 的兼容性问题(#1784)。 详情见发布公告。 DataCleaner 是一个数据质量分析、比较、验证和监督的软件。DataCleaner 的核心是一...

雨田桑 ⋅ 05/03 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Day 17 vim简介与一般模式介绍

vim简介 vi和Vim的最大区别就是编辑一个文件时vi不会显示颜色,而Vim会显示颜色。显示颜色更便于用户编辑,凄然功能没有太大的区别 使用 yum install -y vim-enhanced 安装 vim的三种常用模式...

杉下 ⋅ 56分钟前 ⋅ 0

【每天一个JQuery特效】根据可见状态确定是否显示或隐藏元素(3)

效果图示: 主要代码: <!DOCTYPE html><html><head><meta charset="UTF-8"><title>根据可见状态确定 是否显示或隐藏元素</title><script src="js/jquery-3.3.1.min.js" ty......

Rhymo-Wu ⋅ 今天 ⋅ 0

OSChina 周四乱弹 —— 初中我身体就已经垮了,不知道为什么

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @加油东溪少年 :下完这场雨 后弦 《下完这场雨》- 后弦 手机党少年们想听歌,请使劲儿戳(这里) @马丁的代码 :买了日本 日本果然赢了 翻了...

小小编辑 ⋅ 今天 ⋅ 12

浅谈springboot Web模式下的线程安全问题

我们在@RestController下,一般都是@AutoWired一些Service,由于这些Service都是单例,所以并不存在线程安全问题。 由于Controller本身是单例模式 (非线程安全的), 这意味着每个request过来,...

算法之名 ⋅ 今天 ⋅ 0

知乎Java数据结构

作者:匿名用户 链接:https://www.zhihu.com/question/35947829/answer/66113038 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 感觉知乎上嘲讽题主简...

颖伙虫 ⋅ 今天 ⋅ 0

Confluence 6 恢复一个站点有关使用站点导出为备份的说明

推荐使用生产备份策略。我们推荐你针对你的生产环境中使用的 Confluence 参考 Production Backup Strategy 页面中的内容进行备份和恢复(这个需要你备份你的数据库和 home 目录)。XML 导出备...

honeymose ⋅ 今天 ⋅ 0

JavaScript零基础入门——(九)JavaScript的函数

JavaScript零基础入门——(九)JavaScript的函数 欢迎回到我们的JavaScript零基础入门,上一节课我们了解了有关JS中数组的相关知识点,不知道大家有没有自己去敲一敲,消化一下?这一节课,...

JandenMa ⋅ 今天 ⋅ 0

火狐浏览器各版本下载及插件httprequest

各版本下载地址:http://ftp.mozilla.org/pub/mozilla.org//firefox/releases/ httprequest插件截至57版本可用

xiaoge2016 ⋅ 今天 ⋅ 0

Docker系列教程28-实战:使用Docker Compose运行ELK

原文:http://www.itmuch.com/docker/28-docker-compose-in-action-elk/,转载请说明出处。 ElasticSearch【存储】 Logtash【日志聚合器】 Kibana【界面】 答案: version: '2'services: ...

周立_ITMuch ⋅ 今天 ⋅ 0

使用快嘉sdkg极速搭建接口模拟系统

在具体项目研发过程中,一旦前后端双方约定好接口,前端和app同事就会希望后台同事可以尽快提供可供对接的接口方便调试,而对后台同事来说定好接口还仅是个开始、设计流程,实现业务逻辑,编...

fastjrun ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部