文档章节

汉字转Unicode编码,Unicode编码转汉字

张学良友
 张学良友
发布于 2017/09/05 16:17
字数 501
阅读 9
收藏 0
点赞 0
评论 0
<?php
 
/**
 * 汉字转Unicode编码
 * @param string $str 原始汉字的字符串
 * @param string $encoding 原始汉字的编码
 * @param boot $ishex 是否为十六进制表示(支持十六进制和十进制)
 * @param string $prefix 编码后的前缀
 * @param string $postfix 编码后的后缀
 */
function unicode_encode($str, $encoding = 'UTF-8', $ishex = false, $prefix = '&#', $postfix = ';') {
    $str = iconv($encoding, 'UCS-2', $str);
    $arrstr = str_split($str, 2);
    $unistr = '';
    for($i = 0, $len = count($arrstr); $i < $len; $i++) {
        $dec = $ishex ? bin2hex($arrstr[$i]) : hexdec(bin2hex($arrstr[$i]));
        $unistr .= $prefix . $dec . $postfix;
    }
    return $unistr;
}
 
/**
 * Unicode编码转汉字
 * @param string $str Unicode编码的字符串
 * @param string $decoding 原始汉字的编码
 * @param boot $ishex 是否为十六进制表示(支持十六进制和十进制)
 * @param string $prefix 编码后的前缀
 * @param string $postfix 编码后的后缀
 */
function unicode_decode($unistr, $encoding = 'UTF-8', $ishex = false, $prefix = '&#', $postfix = ';') {
    $arruni = explode($prefix, $unistr);
    $unistr = '';
    for($i = 1, $len = count($arruni); $i < $len; $i++) {
        if (strlen($postfix) > 0) {
            $arruni[$i] = substr($arruni[$i], 0, strlen($arruni[$i]) - strlen($postfix));
        }
        $temp = $ishex ? hexdec($arruni[$i]) : intval($arruni[$i]);
        $unistr .= ($temp < 256) ? chr(0) . chr($temp) : chr($temp / 256) . chr($temp % 256);
    }
    return iconv('UCS-2', $encoding, $unistr);
}
 
header('Content-Type: text/html; charset=UTF-8');
 
// UTF-8字符串测试
$str = '龕龖龗龘龙龚龛龜龝龞龟龠龡龢龣龤龥';
var_dump($str);
 
// 简单的
$uni_str = mb_convert_encoding($str, 'HTML-ENTITIES', 'UTF-8');
var_dump($uni_str);
 
$str3 = mb_convert_encoding($uni_str, 'UTF-8', 'HTML-ENTITIES');
var_dump($str3);
 
$uni_str = unicode_encode($str);
var_dump($uni_str); // &#40853;&#40854;&#40855;&#40856;&#40857;&#40858;&#40859;&#40860;&#40861;&#40862;&#40863;&#40864;&#40865;&#40866;&#40867;&#40868;&#40869;
 
$str2 = unicode_decode($uni_str);
var_dump($str2); // 龕龖龗龘龙龚龛龜龝龞龟龠龡龢龣龤龥
 
$uni_str = unicode_encode($str, 'UTF-8', true, '\u', '');
var_dump($uni_str); // \u9f95\u9f96\u9f97\u9f98\u9f99\u9f9a\u9f9b\u9f9c\u9f9d\u9f9e\u9f9f\u9fa0\u9fa1\u9fa2\u9fa3\u9fa4\u9fa5
 
$str2 = unicode_decode($uni_str, 'UTF-8', true, '\u', '');
var_dump($str2); // 龕龖龗龘龙龚龛龜龝龞龟龠龡龢龣龤龥
 
 
// GBK字符串测试
$str = 'PHP汉字转UNICODE';
 
$str = iconv('UTF-8', 'GBK//IGNORE', $str);
$uni_str = unicode_encode($str, 'GBK');
var_dump($uni_str); // &#80;&#72;&#80;&#27721;&#23383;&#36716;&#85;&#78;&#73;&#67;&#79;&#68;&#69;
 
$str2 = unicode_decode($uni_str, 'GBK');
$str2 = iconv('GBK', 'UTF-8', $str2);
var_dump($str2); // PHP汉字转UNICODE
 
$uni_str = unicode_encode($str, 'GBK', true, '\u', '');
var_dump($uni_str); // \u0050\u0048\u0050\u6c49\u5b57\u8f6c\u0055\u004e\u0049\u0043\u004f\u0044\u0045
 
$str2 = unicode_decode($uni_str, 'GBK', true, '\u', '');
$str2 = iconv('GBK', 'UTF-8', $str2);
var_dump($str2); // PHP汉字转UNICODE

 

本文转载自:

共有 人打赏支持
张学良友
粉丝 0
博文 12
码字总数 974
作品 0
长沙
解决json_encode中文UNICODE转码问题

用PHP的json_encode来处理中文的时候, 中文都会被编码, 变成不可读的, 类似”u***”的格式,如果想汉字不进行转码,这里提供三种方法 1.升级PHP,在PHP5.4, 这个问题终于得以解决, Json新增了...

grushy ⋅ 2014/10/21 ⋅ 0

JavaScript: 详解Base64编码和解码

Base64是最常用的编码之一,比如开发中用于传递参数、现代浏览器中的<img />标签直接通过Base64字符串来渲染图片以及用于邮件中等等。Base64编码在RFC2045中定义,它被定义为:Base64内容传送...

陈亦 ⋅ 2014/02/19 ⋅ 27

在Python中使用中文

在Python中使用中文 这个问题曾在我初学Python的时候令我头疼不已,尤其是目前我们因为各种包的原因还只能使用2.x的版本。在3.x中字符编码已经统一用Unicode了。 Python 默认支持的是ASCII字...

Airship ⋅ 2016/08/09 ⋅ 0

中文编码杂谈(转)

编码问题的例子 在windows自带的notepad(记事本)程序中输入“联通”两个字,保存后再次打开,会发现“联通”不见了,代之以“��ͨ”的乱码。这是windows平台上典型的中文编码问题。即文件...

KenSun ⋅ 2014/02/13 ⋅ 0

java如何实现这个算法

算法描述: 1、当读取的字节在0-127范围的话,说明是ascii字符。直接通过 char c=(char) ?转换就行 ; 2、如果字节 大于127 ,那么则判断字节是不是在128到224范围内,如果是的话,说明是GBK...

wisely ⋅ 2014/04/28 ⋅ 3

转:中文编码杂谈

关于一篇中文编码的文章,挺不错的,就是没有分享外链。 下面的文章内容只是简单的复制/粘贴,如果觉得不错的话,可以查看原文。 原文地址:http://www.searchtb.com/2012/04/chineseencode...

自由男爵 ⋅ 2015/01/26 ⋅ 0

汉字转拼音的Java类库--JPinyin

JPinyin是一个汉字转拼音的Java开源类库,在PinYin4j的功能基础上做了一些改进。 【JPinyin主要特性】 1、准确、完善的字库; Unicode编码从4E00-9FA5范围及3007(〇)的20903个汉字中,JPi...

Jayer ⋅ 2013/05/15 ⋅ 11

字符集、编码、URL编码、base64编码

1. ASCII码 2. GB2312 等中国人们得到计算机时,已经没有可以利用的字节状态来表示汉字,况且有6000多个常用汉字需要保存呢。但是这难不倒智慧的中国人民,我们不客气地把那些127号之后的奇异...

odyyy ⋅ 05/30 ⋅ 0

第二篇:JAVA字符编码系列二:Unicode,ISO-8859-1,GBK,UTF-8编码及...

1、函数介绍 在Java中,字符串用统一的Unicode编码,每个字符占用两个字节,与编码有关的两个主要函数为: 1)将字符串用指定的编码集合解析成字节数组,完成Unicode-〉charsetName转换 ...

taote ⋅ 2011/12/09 ⋅ 0

UNICODE,GBK,UTF-8区别

UNICODE,GBK,UTF-8区别 简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉...

长平狐 ⋅ 2013/01/06 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

服务网关过滤器

过滤器作用 我们的微服务应用提供的接口就可以通过统一的API网关入口被客户端访问到了。但是,每个客户端用户请求微服务应用提供的接口时,它们的访问权限往往都需要有一定的限制,系统并不会...

明理萝 ⋅ 3分钟前 ⋅ 1

【2018.06.21学习笔记】【linux高级知识 14.1-14.3】

14.1 NFS介绍 14.2 NFS服务端安装配置 14.3 NFS配置选项

lgsxp ⋅ 12分钟前 ⋅ 0

Day18 vim编辑模式、命令模式与练习

编辑模式 命令模式 :nohl 不高亮显示 :x与:wq类似,如果在更改文件之后操作,两者效果一样;如果打开文件,没有任何操作; :wq会更改mtime,但是:x不会。 练习题 扩展 vim的特殊用法 ht...

杉下 ⋅ 15分钟前 ⋅ 0

Enum、EnumMap、EnumSet

1、Enum 不带参数 public enum Car { AUDI { @Override public int getPrice() { return 25000; } }, MERCEDES { ......

职业搬砖20年 ⋅ 16分钟前 ⋅ 0

Java中的锁使用与实现

1.Lock接口 锁是用来控制多个线程访问共享资源的方式,一般来说,一个锁能够防止多个线程同时访问共享资源。 在Lock出现之前,java程序是靠synchronized关键字实现锁功能的,而Java SE5之后,...

ZH-JSON ⋅ 17分钟前 ⋅ 0

线程组和 ThreadLocal

前言 在上面文章中,我们从源码的角度上解析了一下线程池,并且从其 execute 方法开始把线程池中的相关执行流程过了一遍。那么接下来,我们来看一个新的关于线程的知识点:线程组。 线程组 ...

猴亮屏 ⋅ 19分钟前 ⋅ 0

相对路径和绝对路径

基本概念   文件路径就是文件在电脑中的位置,表示文件路径的方式有两种,相对路径和绝对路径。在网页设计中通过路径可以表示链接,插入图像、Flash、CSS文件的位置。   物理路径:物理路...

临江仙卜算子 ⋅ 23分钟前 ⋅ 0

消息队列属性及常见消息队列介绍

什么是消息队列? 消息队列是在消息的传输过程中保存消息的容器,用于接收消息并以文件的方式存储,一个队列的消息可以同时被多个消息消费者消费。分布式消息服务DMS则是分布式的队列系统,消...

中间件小哥 ⋅ 25分钟前 ⋅ 0

java程序员使用web3j进行以太坊开发详解

如何使用web3j为Java应用或Android App增加以太坊区块链支持,教程内容即涉及以太坊中的核心概念,例如账户管理包括账户的创建、钱包创建、交易转账,交易与状态、智能合约开发与交互、过滤器...

笔阁 ⋅ 25分钟前 ⋅ 0

vim编辑模式、vim命令模式

vim编辑模式 使用vim filename 进入的界面是一般模式,在这个模式下虽然我们能够查看,复制,剪切,粘贴,但是不能编辑新的内容,如何能直接写入东西呢?这就需要进入编辑模式了,从一般模式...

李超小牛子 ⋅ 28分钟前 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部