文档章节

获取中文

GIFCOOL
 GIFCOOL
发布于 06/14 12:46
字数 139
阅读 3
收藏 0
点赞 0
评论 0
中文可以用正则表达式进行匹配,但是具体匹配方法与中文的编码方式有关:

如果是GBK(GB2312、GB1080),那么中文的编码范围是:

\x80-\xff

如果是UTF-8编码,那么中文的编码范围是:

\u4e00-\u9fa5

那么匹配汉字的正则表达式可以是:
/[\x7f-\xff]+/

或者

/[\u4e00-\u9fa5]+/

例子代码,显示文件中的所有汉字(GBK编码):

 

<?php
  $s=file_get_contents('1.txt');
  if (preg_match_all('/[\x7f-\xff]+/', $s, $r)){搜索
    for ($i=1;$i<count($r[0]);$i++) echo "$i\t".$r[0][$i]."\n";
  }
?>

 

© 著作权归作者所有

共有 人打赏支持
GIFCOOL

GIFCOOL

粉丝 44
博文 207
码字总数 59509
作品 0
广州
程序员
java 这样的正则表达式怎么写

如下格式的字符串: 【中文1【中文2】中文3 中文4【中文5】】 //符号为中文符号【和】 //嵌套层次为2 要获取的结果应该是:所有【】之间的内容 中文1|中文2|中文3 中文4|中文5...

scugxl ⋅ 2013/04/15 ⋅ 2

php - 正则匹配截取中文字符

方案解决目标:对一段中文字符进行正则匹配,获取其中中文字符数据 有这么一段字符信息: $str = '北京=460;上海=368;深圳=326;广州=297;'; 目标是把字符中的地区名获取出来,组成所需的数组...

RongX ⋅ 2016/05/30 ⋅ 0

request.getServletPath()获取中文时乱码

访问链接:http://abc.com/abc/中文 访问以上链接时web.xml中配置的filter会把链接最终映射成真实的访问链接为:http://abc.com/?parame1=abc¶me2=中文. 问题是:访问链接后在filter中通...

webhelper ⋅ 2013/09/12 ⋅ 2

WEB项目中的中文乱码问题

目录: 一、Request中文乱码 二、tomcat 中文乱码 一、Request中文乱码 解决request中文乱码的问题 request.setCharacterEncoding(charset);必须写在第一次使用request.getParameter ()之前,...

peter8015 ⋅ 2016/03/15 ⋅ 0

apache中文url的理解

通过apache下载url中含有中文的目录或文件会出现404错误,经查看是因为apache对中文url的支持有问题。 1.IE访问WEB的简单顺序为: IE<->apache<->文件系统 即IE向apache发送URL请求,该请求是...

华宰 ⋅ 2011/03/16 ⋅ 0

使用spring cloud config配置的中文出现乱码

使用spring cloud config配置的中文用@value获取到的是一堆乱码,网上搜了很多其中一种解决办法是把中文以Unicode编码的形式配置到config中,但是这样感觉不太好,我们不能看出Unicode编码所...

第三滴眼泪 ⋅ 01/03 ⋅ 1

求教:请问针对于不同的浏览器,在地址栏中输入中文之后,浏览器对于中文的转码情况

求教:请问针对于不同的浏览器,在地址栏中输入中文之后,浏览器对于中文的转码情况; 本人使用的框架是:srpingMVC 容器是:resin 在前端和后端都设置了编码为UTF-8了,但是貌似在chrome浏览...

bosscheng ⋅ 2013/05/06 ⋅ 1

自然语言处理(NLP)相关

ヾ(◍°∇°◍)ノ゙-参考 结巴分词使用 中文分词之结巴分词~~~附使用场景+demo(net) jieba分词、自定义词典提取高频词、词性标注及获取词的位置 jieba分词增加自定义词表 词性标注 [pytho...

致Great ⋅ 2017/12/11 ⋅ 0

java项目中遇到的一问题

现在有一个实体类,字段比较多(包括对象属性和list(对象)),后面需要将实体类字段用到的转成中文 怎么能让实体类与中文一一对应起来,才好替换 其实业务是这样的:需要在做各种业务操作时,...

比计划多一点 ⋅ 2015/07/21 ⋅ 7

java 常见中文乱码问题解决

关于中文乱码: 一、 1).在jsp页面上输入中文,要保证中文不乱码,有三个前提: 保证contentType=“text/html;charset=UTF-8”,pageEncoding=“UTF-8” charset和pageEncoding的编码一致,...

祁猛 ⋅ 2016/11/07 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

windows profesional 2017 build problem

.net framework .... https://stackoverflow.com/questions/43330915/could-not-load-file-or-assembly-microsoft-build-frameworkvs-2017...

机油战士 ⋅ 41分钟前 ⋅ 0

python3中报错的解决方法(长期更新)

1、ImportError: No module named ‘DjangoUeditor’ 出错原因:安装DjangoUeditor库适用于python2,需要下载适用python3的 下载地址:https://github.com/twz915/DjangoUeditor3 2、python3......

xiaoge2016 ⋅ 46分钟前 ⋅ 0

数据结构与算法之双向链表

一、双向链表 1.双向链表的结点结构 typedef struct DualNode{ ElemType data; struct DualNode *prior; // 前驱结点 struct DualNode *next; // 后继结点}DualNode, *DuL...

aibinxiao ⋅ 今天 ⋅ 0

五大最核心的大数据技术

大数据技术有5个核心部分,数据采集、数据存储、数据清洗、数据挖掘、数据可视化。关于这5个部分,有哪些核心技术?这些技术有哪些潜在价值?看完今天的文章就知道了。 大数据学习群:7165810...

董黎明 ⋅ 今天 ⋅ 0

PhpStorm 头部注释、类注释和函数注释的设置

首先,PhpStorm中文件、类、函数等注释的设置在:setting-》Editor-》FIle and Code Template-》Includes下设置即可,其中方法的默认是这样的: /**${PARAM_DOC}#if (${TYPE_HINT} != "v...

nsns ⋅ 今天 ⋅ 0

spring.net AOP

http://www.springframework.net/doc-latest/reference/html/aop-quickstart.html https://www.cnblogs.com/wujy/archive/2013/04/06/3003120.html...

whoisliang ⋅ 今天 ⋅ 0

【HAVENT原创】创建 Dockerfile 生成新的镜像,并发布到 DockerHub

注意:Win7 与 Win10 的版本存在差异,Win7 版本使用 Docker Quickstart Terminal 进入控制台,Win10下面直接用管理员权限打开控制台或者 PowerShell 即可;另外 Win7 下面只能访问 C盘,/ap...

HAVENT ⋅ 今天 ⋅ 0

pom.xml出现web.xml is missing ...解决方案

提示信息应该能看懂。也就是缺少了web.xml文件,<failOnMissingWebXml>被设置成true了。 搜索了一下,Stack Overflow上的答案解决了问题,分享一下。 目前被顶次数最多的回答原文如下: This...

源哥L ⋅ 今天 ⋅ 0

js时间戳与日期格式之间相互转换

1. 将时间戳转换成日期格式 1 2 3 4 5 6 7 8 9 10 11 12 13 14 // 简单的一句代码 var date = new Date(时间戳); //获取一个时间对象 /** 1. 下面是获取时间日期的方法,需要什么样的格式自己...

Jack088 ⋅ 今天 ⋅ 0

web添加log4j

添加xml配置log4j.properties # Global logging configuration---root日志设置#log4j.rootLogger=info,dailyRollingFile,stdoutlog4j.rootLogger=debug,stdout,dailyRollingFile---......

黄柳淞 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部