文档章节

php转换字符串编码 iconv与mb_convert_encoding的区别

Junn
 Junn
发布于 2013/08/12 16:15
字数 1091
阅读 8106
收藏 7

PHP判断字符串编码函数mb_detect_encoding总结


iconv — Convert string to requested character encoding(PHP 4 >= 4.0.5, PHP 5)

mb_convert_encoding — Convert character encoding(PHP 4 >= 4.0.6, PHP 5)

iconv字符串按要求的字符编码来转换
mb_convert_encoding
转换字符的编码

两个函数功能类似都是用来转换字符串编码的;

用法:

string mb_convert_encoding ( string str, string to_encoding [, mixed from_encoding] )

注:需要先启用 mbstring 扩展库,在 php.ini里将; extension=php_mbstring.dll 前面的 ; 去掉

参数:str——要编码的str、to_encoding——str要转换成编码类型、from_encoding——在转换前通过字符代码名称来指定。 它可以是一个 array 也可以是逗号分隔的枚举列表。 如果没有提供 from_encoding,则会使用内部(internal)编码。 参见支持的编码。

支持的字符编码

当前 mbstring 模块支持以下的字符编码。这些字符编码中的任意一个都能指定到 mbstring 函数中的 encoding 参数。

该 PHP 扩展支持的字符编码有以下几种:

    UCS-4*
    UCS-4BE
    UCS-4LE*
    UCS-2
    UCS-2BE
    UCS-2LE
    UTF-32*
    UTF-32BE*
    UTF-32LE*
    UTF-16*
    UTF-16BE*
    UTF-16LE*
    UTF-7
    UTF7-IMAP
    UTF-8*
    ASCII*
    EUC-JP*
    SJIS*
    eucJP-win*
    SJIS-win*
    ISO-2022-JP
    ISO-2022-JP-MS
    CP932
    CP51932
    SJIS-mac** (别名: MacJapanese)
    SJIS-Mobile#DOCOMO** (别名: SJIS-DOCOMO)
    SJIS-Mobile#KDDI** (别名: SJIS-KDDI)
    SJIS-Mobile#SOFTBANK** (别名: SJIS-SOFTBANK)
    UTF-8-Mobile#DOCOMO** (别名: UTF-8-DOCOMO)
    UTF-8-Mobile#KDDI-A**
    UTF-8-Mobile#KDDI-B** (别名: UTF-8-KDDI)
    UTF-8-Mobile#SOFTBANK** (别名: UTF-8-SOFTBANK)
    ISO-2022-JP-MOBILE#KDDI** (别名: ISO-2022-JP-KDDI)
    JIS
    JIS-ms
    CP50220
    CP50220raw
    CP50221
    CP50222
    ISO-8859-1*
    ISO-8859-2*
    ISO-8859-3*
    ISO-8859-4*
    ISO-8859-5*
    ISO-8859-6*
    ISO-8859-7*
    ISO-8859-8*
    ISO-8859-9*
    ISO-8859-10*
    ISO-8859-13*
    ISO-8859-14*
    ISO-8859-15*
    byte2be
    byte2le
    byte4be
    byte4le
    BASE64
    HTML-ENTITIES
    7bit
    8bit
    EUC-CN*
    CP936
    GB18030**
    HZ
    EUC-TW*
    CP950
    BIG-5*
    EUC-KR*
    UHC (CP949)
    ISO-2022-KR
    Windows-1251 (CP1251)
    Windows-1252 (CP1252)
    CP866 (IBM866)
    KOI8-R*

* 表示该编码也可以在正则表达式中使用。

** 表示该编码自 PHP 5.4.0 始可用。

任何接受编码名称的 php.ini 条目同样也可以使用 "auto" 和 "pass" 的值。 接受编码名的 mbstring 函数同样也可以使用值 "auto"。

如果设置了 "pass",将不会对字符的编码进行转化。

如果设置了 "auto",它将扩展成 NLS 中定义的每个字符编码列表。 比如,假设 NLS 设置为 Japanese,值将会认为是 "ASCII,JIS,UTF-8,EUC-JP,SJIS"。

NLS国家语言支持(National Language Support)

string iconv ( string in_charset, string out_charset, string str )

注意:
第二个参数,除了可以指定要转化到的编码以外,还可以增加两个后缀://TRANSLIT 和 //IGNORE,
其中:
//TRANSLIT 会自动将不能直接转化的字符变成一个或多个近似的字符,
//IGNORE 会忽略掉不能转化的字符,而默认效果是从第一个非法字符截断。
Returns the converted string or FALSE on failure. (返回转换后的字符串;如果执行失败将返回FALSE。)

使用:

1. 发现iconv在转换字符 "-" 到gb2312时会出错,如果没有ignore参数,所有该字符后面的字符串都无法被保存。不管怎么样,这个 "-" 都无法转换成功,无法输出。 另外mb_convert_encoding没有这个bug

2. mb_convert_encoding 可以指定多种输入编码,它会根据内容自动识别, 但是执行效率比iconv差太多;如:
$str = mb_convert_encoding($str,"euc-jp","ASCII,JIS,EUC-JP,SJIS,UTF-8");“ASCII,JIS,EUC-JP,SJIS,UTF-8”的顺序不同效果也有差异 。

3. 一般情况下用 iconv,只有当遇到无法确定原编码是何种编码,或者iconv转化后无法正常显示时才用mb_convert_encoding 函数 。

from_encoding is specified by character code name before conversion. it can be array or string - comma separated
enumerated list. If it is not specified, the internal encoding will be used.

$str = mb_convert_encoding($str, "UCS-2LE", "JIS, eucjp-win, sjis-win");
$str = mb_convert_encoding($str, "EUC-JP', " auto");

例子:

$content = iconv("GBK", "UTF-8", $content);
$content = mb_convert_encoding($content, "UTF-8", "GBK");

<?php
/* 转换内部编码为 SJIS */
$str = mb_convert_encoding($str, "SJIS");

/* 将 EUC-JP 转换成 UTF-7 */
$str = mb_convert_encoding($str, "UTF-7", "EUC-JP");

/* 从 JIS, eucjp-win, sjis-win 中自动检测编码,并转换 str 到 UCS-2LE */
$str = mb_convert_encoding($str, "UCS-2LE", "JIS, eucjp-win, sjis-win");

/* "auto" 扩展成 "ASCII,JIS,UTF-8,EUC-JP,SJIS" */
$str = mb_convert_encoding($str, "EUC-JP", "auto");
?>
<?php
$text = "This is the Euro symbol '€'.";

echo 'Original : ', $text, PHP_EOL;
echo 'TRANSLIT : ', iconv("UTF-8", "ISO-8859-1//TRANSLIT", $text), PHP_EOL;
echo 'IGNORE   : ', iconv("UTF-8", "ISO-8859-1//IGNORE", $text), PHP_EOL;
echo 'Plain    : ', iconv("UTF-8", "ISO-8859-1", $text), PHP_EOL;

?>

输出结果: 
Original : This is the Euro symbol '€'.
TRANSLIT : This is the Euro symbol 'EUR'.
IGNORE   : This is the Euro symbol ''.
Plain    :
Notice: iconv(): Detected an illegal character in input string in .\iconv-example.php on line 7
This is the Euro symbol '    
 

© 著作权归作者所有

共有 人打赏支持
Junn
粉丝 145
博文 412
码字总数 288918
作品 0
海淀
高级程序员
php中iconv函数使用方法

最近在做一个程序,需要用到iconv函数把抓取来过的utf-8编码的页面转成gb2312, 发现只有用iconv函数把抓取过来的数据一转码数据就会无缘无故的少一些。 iconv函数库能够完成各种字符集间的转...

李世晨
2013/01/15
0
0
PHP中的mb_convert_encoding与iconv函数介绍

mbconvertencoding这个函数是用来转换编码的。原来一直对程序编码这一概念不理解,不过现在好像有点开窍了。 不过英文一般不会存在编码问题,只有中文数据才会有这个问题。比如你用Zend Stud...

李佳顺
2012/05/22
0
0
iconv()和mb_conver_encoding()字符编码转换函数

一. — 将字符串 str 从 incharset编码格式 转换到 outcharset编码格式 1.如果你在 参数out_charset 后添加了字符串 //****TRANSLIT表示:当一个字符不能被目标字符集所表示时,它可以通过一...

ITCHN
2016/12/20
5
0
PHP输出中文乱码解决:编码终结者

学习PHP之初,根本就没有意识到过有编码那回事儿,随着对中文的输出越来越多,遇到输出乱码的情况也就更加普遍了。最早我们怀疑是数据库编码的问题,于是在PHP代码中的解决的办法是: mysql_...

七彩极
07/02
0
0
PHP读取TXT中文乱码的解决方式

因为业务上的需求,需要使用PHP读取一个TXT文件,但是在设计到中文的问题上,就遇到了恶心的乱码问题; 首先查看一下TXT的编码格式有四种:ANSI、Unicode、Unicode Big Endian、UTF-8 1、先是...

landry17
2011/05/21
0
2

没有更多内容

加载失败,请刷新页面

加载更多

redis-hash

哈希类型是指健值本身又是一个键值对结构 基本命令: hset key field value 设置值 hget(获取),hdel(删除),hlen(计算field个数),hmget(批量设置),hexists(是否存在),hkeys(获取所有的...

拐美人
15分钟前
1
0
简单的svm例子

数据来源:https://github.com/oumiga1314/Coursera-ML-AndrewNg-Notes/blob/master/code/ex6-SVM/data/ex6data1.mat import pandas as pd import numpy as np import scipy.io as sio impor......

南桥北木
19分钟前
0
0
android 关于View的一些整理

1、Button text的值为英文时,会自动转换成大写。如需取消,设置android:textAllCaps="false" 2、控件的可见性 可以在layout的配置文件中,配置android:visibility属性 调用setVisibility()...

西米小娅
30分钟前
0
0
Spring JDBC数据源分析

Spring数据源分析 分析这样一段代码: package com.jason.spring.datasource.jdbc;import org.springframework.context.support.ClassPathXmlApplicationContext;import org.springframew......

宸明
38分钟前
1
0
FatJar:适用于sdk多module打包和合并多个jar的gradle插件

usage: 1.下载fatJar.gradle放置于project根目录 2.在project的build.gradle中添加依赖和配置: apply from: 'fatJar.gradle'buildscript { dependencies { classpath 'xyz......

SuShine
55分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部