php正则表达式 unicode编码属性
php正则表达式 unicode编码属性
起什么name呢 发表于7个月前
php正则表达式 unicode编码属性
  • 发表于 7个月前
  • 阅读 13
  • 收藏 0
  • 点赞 0
  • 评论 0
摘要: laravel 汉语转拼音扩展包 源码阅读过程中遇到的一些问题
/**
 * Preprocess.
 *
 * @param string $string
 *
 * @return string
 */
protected function prepare($string)
{
    $string = preg_replace_callback('~[a-z0-9_-]+~i', function ($matches) {
        return "\t".$matches[0];
    }, $string);

    return preg_replace("~[^\p{Han}\p{P}\p{Z}\p{M}\p{N}\p{L}\t]~u", '', $string);
}

今天在看laravel的一个汉语转拼音的扩展包的时候,遇到这么一段代码,有两个地方看不懂。

第一个 正则中用的 ~~ 符号

看完后没有查阅到任何可以帮助到我的资料,于是经过实验后发现~和/的作用一样,表示这是一个正则表达式的定界符。

第二个 最后一段正则\p{Han}\p{P}

查看了php 官方手册

http://php.net/manual/zh/regexp.reference.unicode.php

里面的解释还是有些一知半解的感觉,没有理解其中的一段话(可能是翻译不太贴切导致的)

Unicode 字符集在具体文字中定义。使用文字名可以匹配这些字符集中的一个字符。例如:

  • \p{Greek}
  • \P{Han}

经实验,理解为可以匹配某种语言的一个字符。Han就表示中文

共有 人打赏支持
粉丝 2
博文 27
码字总数 12406
×
起什么name呢
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: