计算机本质上只能处理数值,每个字符在计算机中只能用一个整数来表示,这种整数称为字符编码。
2.编码格式
ASCII码
总共有 128 个,用一个字节的低 7 位表示,0~31 是控制字符如换行回车删除等;32~126 是打印字符,可以通过键盘输入并且能够显示出来。
ISO-8859-1
ISO 组织在 ASCII 码基础上又制定了一些列标准用来扩展 ASCII 编码,其中 ISO-8859-1 涵盖了大多数西欧语言字符,
所有应用的最广泛。ISO-8859-1 仍然是单字节编码,它总共能表示 256 个字符。
GB2312
它的全称是《信息交换用汉字编码字符集 基本集》,只收录简体汉字,共有7445个字符。
机内码使得汉字编码的空间为0xA1A1到0xF7FE,每个汉字的编码为两个字节,每个字节的编码在0xA1到0xFE之间
ASCII的编码是一个字符一个字节,每个字节的编码在0x00到0x7F之间,这样就使得英文和汉字的编码空间不再重叠.
注:区号加位号可以作为一种编码,这种编码称为区位码.区位码不能直接在机器中使用,因为它的编码空间与ASCII重叠,
为了解决这个问题GB2312的字符在机器中实际采用的是机内码,通过一个简单的对应关系来实现两者之间的转换。
GBK
全称叫《汉字内码扩展规范》,GBK包含了GB2312的全部字符,同时还包括了Big5中的全部字符以及日文、韩文中使用的汉字。
对于原GB2312中的字符,GBK的编码就是原来的机内码。
GBK的编码空间从0x8140到0xFEFE,每个汉字的编码仍为两字节,其中第一个字节8位二进制数的最高位始终是1,
这使得GBK的编码空间可以避开ASCII的编码空间。
注:<问题>:虽然GB2312和GBK都有效的避开了和ASCII编码空间的重叠,但是并没有和其他一些编码(比如Big5)避开重叠,
这样的话有可能我的一段文字到别人那边就变成另外一段文字,并不是很明显的出现乱码。
解决这种问题的最好办法是统一编码,不管简体字还是繁体字,还有日文、韩文中使用的汉字,全部统一编码,
使得每个编码对应的汉字是唯一的,并且与世界上所有其它语言的字符编码不重叠,这就是Unicode。
Unicode编码:
编码方法是首先将所有的字符排列在若干个平面上,每个平面划分为256行,每行256列,从而每个平面存放64K(1K=1024)个字符。
每个字符所在的平面号、行号和列号称为码位(code point),码位可作为字符的编码。
平面0是最重要的平面,称为BMP(Basic Multilingual Plane),其中基本上包括了当今世界上各种语言使用的字符,
当然也包含中、日、韩三种文字中使用的所有汉字。
理论上ISO/IEC 10646预留了64K个平面,这样平面号的编码范围将为0x0000~0xFFFF,加上平面内的行号和列号,
字符码位的范围将是0x00000000~0xFFFFFFFF,也就是说,必须用4个字节来存放一个字符的码位。 Unicode仅使用编号0x00到0x10的17个平面,
其码位范围为0x000000~0x10FFFF,也需要用3个字节来存放。 但是我们实际使用的字符绝大多数都在BMP中,
只是偶尔使用其它平面的字符,因此可以设计一种两字节的编码,使得BMP中的字符编码就是它们在BMP中的码位,
而其它平面的字符用一种代替的方法来表示,这样的编码就是UTF-16。
UTF-16
UTF-16 具体定义了 Unicode 字符在计算机中存取方法。UTF-16 用两个字节来表示 Unicode 转化格式,这个是定长的表示方法,
不论什么字符都可以用两个字节表示,两个字节是 16 个 bit,所以叫 UTF-16。
UTF-16 表示字符非常方便,每两个字节表示一个字符,这个在字符串操作时就大大简化了操作,
这也是 Java 以 UTF-16 作为内存的字符存储格式的一个很重要的原因。
UTF-8
UTF-8采取不定长的编码方法:
ASCII字符的编码只用一个字节,并且其编码就是原来的ASCII码, 其它字符的编码从2个字节到4个字节不等。
每个字符编码的第一字节指出该字符编码的字节数:其中第一个二进制数0的左边有多少个1,该字符编码就有多少个字节;
如果第一位就是0,则该字符编码只有一个字节。
例如,某个字符编码第一字节是0xxxxxxx(x表示任意的二进制数),则该字符的UTF-8编码只有一个字节。
若某个字符编码第一字节为110xxxxx,则该字符的编码将有两个字节。对于两个字节及其以上的UFT-8编码,
从第二字节开始,每个字节开头两个二进制数都是10。
java中常用到编码的地方
用一句话描述一下编码:任何我们输入的字符当需要被计算机保存或者用于传输时都需要进行编码。
问题在于需不需要你去显示的编码<不知道准不准确>
1.内存中操作的编码
Java 中用 String 表示字符串,所以 String 类就提供转换到字节的方法,也支持将字节转换为字符串的构造函数。
String s = "中国";
byte[] b = s.getBytes("UTF-8");
String n = new String(b,"UTF-8");
Charset 提供 encode 与 decode 分别对应 char[] 到 byte[] 的编码和 byte[] 到 char[] 的解码
Charset charset = Charset.forName("UTF-8");
ByteBuffer byteBuffer = charset.encode(string);
CharBuffer charBuffer = charset.decode(byteBuffer);
2.I/O 操作中存在的编码:I/O 包括磁盘 I/O 和网络 I/O
Reader 类是 Java 的 I/O 中读字符的父类,而 InputStream 类是读字节的父类,InputStreamReader 类就是关联字节到字符的桥梁,
它负责在 I/O 过程中处理读取字节到字符的转换,而具体字节到字符的解码实现它由 StreamDecoder 去实现,
在 StreamDecoder 解码过程中必须由用户指定 Charset 编码格式。值得注意的是如果你没有指定 Charset,将使用本地环境中的默认字符集
写的情况也是类似,字符的父类是 Writer,字节的父类是 OutputStream,通过 OutputStreamWriter 转换字符到字节。
// 写字符换转成字节流
FileOutputStream outputStream = new FileOutputStream("c:/stream.txt");
OutputStreamWriter writer = new OutputStreamWriter(
outputStream, "UTF-8");
try {
writer.write("中国");
} finally {
writer.close();
}
// 读取字节转换成字符
FileInputStream inputStream = new FileInputStream(file);
InputStreamReader reader = new InputStreamReader(
inputStream, charset);
StringBuffer buffer = new StringBuffer();
char[] buf = new char[64];
int count = 0;
try {
while ((count = reader.read(buf)) != -1) {
buffer.append(buffer, 0, count);
}
} finally {
reader.close();
}