文档章节

获取中文

Youtubeornotobe
 Youtubeornotobe
发布于 06/14 12:46
字数 139
阅读 5
收藏 0
中文可以用正则表达式进行匹配,但是具体匹配方法与中文的编码方式有关:

如果是GBK(GB2312、GB1080),那么中文的编码范围是:

\x80-\xff

如果是UTF-8编码,那么中文的编码范围是:

\u4e00-\u9fa5

那么匹配汉字的正则表达式可以是:
/[\x7f-\xff]+/

或者

/[\u4e00-\u9fa5]+/

例子代码,显示文件中的所有汉字(GBK编码):

 

<?php
  $s=file_get_contents('1.txt');
  if (preg_match_all('/[\x7f-\xff]+/', $s, $r)){搜索
    for ($i=1;$i<count($r[0]);$i++) echo "$i\t".$r[0][$i]."\n";
  }
?>

 

© 著作权归作者所有

共有 人打赏支持
上一篇: fb
下一篇: X61 U盘安装系统
Youtubeornotobe

Youtubeornotobe

粉丝 44
博文 210
码字总数 59509
作品 0
广州
程序员
私信 提问
java 这样的正则表达式怎么写

如下格式的字符串: 【中文1【中文2】中文3 中文4【中文5】】 //符号为中文符号【和】 //嵌套层次为2 要获取的结果应该是:所有【】之间的内容 中文1|中文2|中文3 中文4|中文5...

scugxl
2013/04/15
470
2
php - 正则匹配截取中文字符

方案解决目标:对一段中文字符进行正则匹配,获取其中中文字符数据 有这么一段字符信息: $str = '北京=460;上海=368;深圳=326;广州=297;'; 目标是把字符中的地区名获取出来,组成所需的数组...

RongX
2016/05/30
23
0
WEB项目中的中文乱码问题

目录: 一、Request中文乱码 二、tomcat 中文乱码 一、Request中文乱码 解决request中文乱码的问题 request.setCharacterEncoding(charset);必须写在第一次使用request.getParameter ()之前,...

peter8015
2016/03/15
43
0
request.getServletPath()获取中文时乱码

访问链接:http://abc.com/abc/中文 访问以上链接时web.xml中配置的filter会把链接最终映射成真实的访问链接为:http://abc.com/?parame1=abc¶me2=中文. 问题是:访问链接后在filter中通...

webhelper
2013/09/12
808
2
自然语言处理(NLP)相关

ヾ(◍°∇°◍)ノ゙-参考 结巴分词使用 中文分词之结巴分词~~~附使用场景+demo(net) jieba分词、自定义词典提取高频词、词性标注及获取词的位置 jieba分词增加自定义词表 词性标注 [pytho...

致Great
2017/12/11
0
0

没有更多内容

加载失败,请刷新页面

加载更多

CentOS 安装PHP5和PHP7

安装PHP5 下载解压二进制包 [root@test-a src]# cd /usr/local/src/[root@test-a src]# wget http://cn2.php.net/distributions/php-5.6.32.tar.bz2[root@test-a src]# tar jxvf php-5.6......

野雪球
今天
4
0
windows上类似dnsmasq的软件Dual DHCP DNS Server

官网地址:http://dhcp-dns-server.sourceforge.net/官网定向的下载地址:https://sourceforge.net/projects/dhcp-dns-server/files/ 设置参考地址:http://blog.51cto.com/zhukeqiang/18264......

xueyuse0012
今天
3
0
LinkedHashMap源码解析

前言 HashMap中的元素时无序的,也就是说遍历HashMap的时候,顺序和放入的顺序是不一样的。 如果需要有序的Map,就可以采用LinkedHashMap. LinkedHashMap通过维护一个包含所有元素的双向链表,...

grace_233
今天
3
0
初识flask

文档 0.10.1版本 http://www.pythondoc.com/flask/index.html 1.0.2版本 https://dormousehole.readthedocs.io/en/latest/ 安装flask $ pip3 install flaskCollecting flask Downloading......

yimingkeji
昨天
6
0
Akka系统《sixteen》译

Actor是一个封装状态(state)和行为(behavior)的对象,它们只通过交换消息通信(放入收件人邮箱的邮件)。从某种意义上说,Actor是最严格的面向对象编程形式,但它更适合将他们视为人:在与Act...

woshixin
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部