文档章节

知道双字节码, 如何获取汉字 - 回复 "pinezhou" 的问题

涂孟超
 涂孟超
发布于 2014/09/26 15:36
字数 554
阅读 5
收藏 0

问题来源: http://www.cnblogs.com/del/archive/2008/09/05/1284923.html#1818187

{查看同一字符串的双字节码和 UniCode 码}
procedure TForm1.Button1Click(Sender: TObject);
var
  str1: AnsiString;
  str2: UnicodeString; {string = UnicodeString}
  P: PINT;
begin
  { "万一" 对应的双字节码是: BBD2F2CD }
  str1 := '万一';
  P := @str1[1];
  ShowMessage(IntToHex(P^, 4)); //BBD2F2CD {万: F2CD; 一:BBD2 }

  { "万一" 对应的 UniCode 码是: 4E004E07 }
  str2 := '万一';
  P := @str2[1];
  ShowMessage(IntToHex(P^, 4)); //4E004E07 {万: 4E00; 一: 4E00}
end;

{知道双字节码, 如何转换为 UniCode: 两个字一起转}
procedure TForm1.Button2Click(Sender: TObject);
var
  str1: AnsiString;
  str2: string;
begin
  SetLength(str1, 4);
  PInteger(@str1[1])^ := $BBD2F2CD;

  Memo1.Lines.Add(str1); //万一
  str2 := str1;
  Memo1.Lines.Add(str2); //万一
end;

{逐字转}
procedure TForm1.Button3Click(Sender: TObject);
var
  str1: AnsiString;
begin
  SetLength(str1, 2);
  PWord(@str1[1])^ := $F2CD;
  Memo1.Lines.Add(str1); //万
  PWord(@str1[1])^ := $BBD2;
  Memo1.Lines.Add(str1); //一
end;

 
 
 
 
 

 

 

  

好像没有解决问题, 换个思路重来一下:

const
  GB18030 = 54936;
var
  BytesGB18030: TBytes;

{查看 Hex 的函数}
function ToHex(p: PByteArray; b: Integer): string;
var
  i: Integer;
begin
  for i := 0 to b - 1 do
    Result := IntToHex(p^[i], 2) + Chr(32) + Result;
  Result := TrimRight(Result);
end;

{观察字符串以 GB18030 储存的编码}
procedure TForm1.Button1Click(Sender: TObject);
var
  strHex: string;
  StringStream: TStringStream;
begin
  StringStream := TStringStream.Create('万一的 Delphi 博客', GB18030);
  BytesGB18030 := StringStream.Bytes;
  Memo1.Lines.Add(StringStream.DataString);
  Memo1.Lines.Add(ToHex(@BytesGB18030[0], Length(BytesGB18030)));
  Memo1.Lines.Add('');
  StringStream.Free;
end;

{观察字符串以 Unicode 储存的编码}
procedure TForm1.Button2Click(Sender: TObject);
var
  strHex: string;
  StringStream: TStringStream;
begin
  StringStream := TStringStream.Create('万一的 Delphi 博客', TEncoding.Unicode);
  Memo1.Lines.Add(StringStream.DataString);
  Memo1.Lines.Add(ToHex(@StringStream.Bytes[0], Length(StringStream.Bytes)));
  Memo1.Lines.Add('');
  StringStream.Free;
end;

{把从前面测试得到的字节数组 BytesGB18030 转换为 Unicode 字符串}
procedure TForm1.Button3Click(Sender: TObject);
var
  StringStream: TStringStream;
  str,strHex: string;
begin
  if Length(BytesGB18030) < 1 then Exit;

  {直接根据字节数组建立 TStringStream}
  StringStream := TStringStream.Create(BytesGB18030);
  {TStringStream.DataString 就已经是标准的 string}
  str := StringStream.DataString;

  Memo1.Lines.Add(StringStream.DataString);
  Memo1.Lines.Add(ToHex(@StringStream.Bytes[0], Length(StringStream.Bytes)));
  Memo1.Lines.Add('');
  Memo1.Lines.Add(str);
  Memo1.Lines.Add(ToHex(@str[1], ByteLength(str)));
  StringStream.Free;
end;

 
 
 
 
 

 

 

  

(* Memo 中的测试结果:
Memo1
万一的 Delphi 博客
CD BF A9 B2 20 69 68 70 6C 65 44 20 C4 B5 BB D2 F2 CD

万一的 Delphi 博客
5B A2 53 5A 00 20 00 69 00 68 00 70 00 6C 00 65 00 44 00 20 76 84 4E 00 4E 07

万一的 Delphi 博客
CD BF A9 B2 20 69 68 70 6C 65 44 20 C4 B5 BB D2 F2 CD

万一的 Delphi 博客
5B A2 53 5A 00 20 00 69 00 68 00 70 00 6C 00 65 00 44 00 20 76 84 4E 00 4E 07
*)

 
 
 
 
 

 

 

  

本文转载自:http://www.cnblogs.com/del/archive/2010/05/06/1729250.html

共有 人打赏支持
涂孟超
粉丝 12
博文 2011
码字总数 14107
作品 0
深圳
程序员
程序员必须知道的字符集与字符编码详解

在软件的编码和实现中,我们可能会碰到个 一个比较头疼的问题--编码,不同字符间的编码和解码,你确定了解各种字符的编码吗?一个朋友问到了我这 个问题,我虽然能回答一两个出来,但是感觉...

Java小铺
08/21
0
0
Unicode ,UTF-8,assic, gbk, latin1编码

Unicode ,UTF-8,assic, gbk, latin1编码 1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合...

xiaocao13140
06/04
0
0
ASCII,Unicode,UTF-8,GB2312一些关于编码的理解

字符编码:ASCII,Unicode,UTF-8,GB2312 从文件编码的方式来看,文件可分为ASCII码文件和二进制码文件两种。 ASCII文件也称为文本文件,这种文件在磁盘中存放时每个字符对应一个字节,用于...

lovedreamland
2012/07/17
0
0
利用html5实现类似微信的手机摇一摇功能,并播放音乐,并且解决中文乱码的问题。

转载了@三井学长:http://blog.csdn.net/david1030/article/details/8229008 转载了@Hello Csn楠!:http://www.cnblogs.com/csn0721/ 1、 deviceOrientation:封装了方向传感器数据的事件,...

Oscarfff
2015/04/02
0
0
UTF-8 GBK UTF8 GB2312 之间的区别和关系

UTF-8:Unicode TransformationFormat-8bit,允许含BOM,但通常不含BOM。是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码。UTF-8包含...

yangkai_2005
2012/09/05
0
1

没有更多内容

加载失败,请刷新页面

加载更多

如何通过 J2Cache 实现分布式 session 存储

做 Java Web 开发的人多数都会需要使用到 session (会话),我们使用 session 来保存一些需要在两个不同的请求之间共享数据。一般 Java 的 Web 容器像 Tomcat、Resin、Jetty 等等,它们会在...

红薯
今天
3
0
C++ std::thread

C++11提供了std::thread类来表示一个多线程对象。 1,首先介绍一下std::this_thread命名空间: (1)std::this_thread::get_id():返回当前线程id (2)std::this_thread::yield():用户接口...

yepanl
今天
3
0
Nignx缓存文件与动态文件自动均衡的配置

下面这段nginx的配置脚本的作用是,自动判断是否存在缓存文件,如果有优先输出缓存文件,不经过php,如果没有,则回到php去处理,同时生成缓存文件。 PHP框架是ThinkPHP,最后一个rewrite有关...

swingcoder
今天
2
0
20180920 usermod命令与用户密码管理

命令 usermod usermod 命令的选项和 useradd 差不多。 一个用户可以属于多个组,但是gid只有一个;除了gid,其他的组(groups)叫做扩展组。 usermod -u 1010 username # 更改用户idusermod ...

野雪球
今天
3
0
Java网络编程基础

1. 简单了解网络通信协议TCP/IP网络模型相关名词 应用层(HTTP,FTP,DNS等) 传输层(TCP,UDP) 网络层(IP,ICMP等) 链路层(驱动程序,接口等) 链路层:用于定义物理传输通道,通常是对...

江左煤郎
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部