文档章节

python 繁体转简体 全角转半角

 浮云飘飘
发布于 2016/04/11 15:35
字数 841
阅读 138
收藏 8
pip install langconv

#! /usr/bin/env python
# coding:utf8
# Create your views here.
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
from langconv.langconv import   *

def _prodesc_delsytle(htmlstr):
    try:
        htmlstr=htmlstr.replace(""",'"')
        htmlstr=htmlstr.replace("&",'&')
        htmlstr=htmlstr.replace("&lt;",'<')
        htmlstr=htmlstr.replace("&gt;",'>')
        htmlstr=htmlstr.replace("&nbsp;",' ')
        s=re.sub("<[^<>]+>",'',htmlstr)
        return s
    except:
        return  htmlstr

def _strQ2B(ustring):
    """全角转半角"""
    rstring = ""
    for uchar in ustring:
        inside_code=ord(uchar)
        if inside_code == 12288:                              #全角空格直接转换
            inside_code = 32
        elif (inside_code >= 65281 and inside_code <= 65374): #全角字符(除空格)根据关系转化
            inside_code -= 65248

        rstring += unichr(inside_code)
    return rstring
def _strQ2B(ustring):
    """全角转半角"""
    if "data:image/png;base64" in ustring or "data:image/gif;base64" in ustring or "data:image/jpeg;base64" in ustring or "data:image/x-icon;base64" in ustring:
        return "None none"
    ustring=ustring.replace(unichr(12288),unichr(32))
    ustring=re.sub(u"[\uff01-\uff5e]",lambda i:unichr(ord(i.group(0))-65248),ustring)
    return ustring
def content_handle(content):
    "处理一个Unicode字符串"
    # print "content----", type(content)
    content=u'%s'%content
    result=ConverterHandler("zh-hans")
    result=result.convert(content)  #繁体转简体
    result= result.replace(" ","" )  #去空格
    result=_strQ2B(result)    #全角转半角
    result=_prodesc_delsytle(result)     #去html标签
    return  result

b='''飛機在亞洲的上空飛翔
import re
</div>1949年6月16日,<a target=_blank href="/view/5368861.htm">
新政协</a>筹备会决定成立国旗、国徽图案初选委员会,同年7月14日至8月15日在
《<a target=_blank href="/view/38274.htm">人民日报</a>》
等报纸发表征求启事。1949年9月<a target=_blank href="/view/244325.htm">
中国人民政治协商会议第一届全体会议</a>期间,
初选委员会从收到的3012幅图案中选出38幅印发全体代表讨论。
经全体代表分组讨论后,9月25日晚,
<a target=_blank href="/view/1689.htm">毛泽东</a>
主席召开<a target=_blank href="/subview/4040/10938361.htm">国旗</a>、
<a target=_blank href="/view/21625.htm">国徽</a>、
<a target=_blank href="/subview/4572/5397002.htm">国歌</a>、
<a target=_blank href="/view/43238.htm">纪年</a>、
<a target=_blank href="/view/620056.htm">国都</a>协商座谈会。
在关于国旗的讨论中,会议研究决定去除原设计稿中意识形态浓厚,
且与苏联国旗相仿的镰刀斧头标志。最后形成以红色为底色,四小星拱卫大星的五星红旗方案。</div>
<div class="para" label-module="para">毛泽东指出,
五星红旗这个图案表现革命人民<a target=_blank href="/view/347689.htm">大团</a>
<a target=_blank href="/view/287677.htm">结</a>,
因此,又是团结,又是革命。<sup>[1]</sup><a class="sup-anchor" name="ref_[1]_9304">&nbsp;</a>
</div>'''
print content_handle(b)
>>
飞机在亚洲的上空飞翔
import re
1949年6月16日,新政协筹备会决定成立国旗、国徽图案初选委员会,同年7月14日至8月15日在《人民日报》
等报纸发表征求启事。1949年9月中国人民政治协商会议第一届全体会议期间,
初选委员会从收到的3012幅图案中选出38幅印发全体代表讨论。
经全体代表分组讨论后,9月25日晚,毛泽东主席召开国旗、国徽、国歌、纪年、国都协商座谈会。
在关于国旗的讨论中,会议研究决定去除原设计稿中意识形态浓厚,
且与苏联国旗相仿的镰刀斧头标志。最后形成以红色为底色,四小星拱卫大星的五星红旗方案。
毛泽东指出,五星红旗这个图案表现革命人民大团结,因此,又是团结,又是革命。[1]


© 著作权归作者所有

粉丝 23
博文 152
码字总数 95225
作品 0
洛阳
私信 提问
common-tools(1)之中文相关工具类使用(ZhUtil)

发了个自己写的工具包,发现可能是样例代码太少了,导致反响不够强烈啊。那么从现在开始就以博文的形式介绍下我的这个工具包有哪些功能。 工具包我发布到github上了,开源中国的地址是:htt...

路小磊
2013/02/24
604
2
ToolGood/ToolGood.Words

ToolGood.Words 一款高性能非法词(敏感词)检测组件,附带繁体简体互换,支持全角半角互换,获取拼音首字母,获取拼音字母,拼音模糊搜索等功能。 文件夹说明: ToolGood.PinYin.Build: 生成词...

ToolGood
2017/01/14
0
0
ibus-pinyin 1.3.7 发布,支持注音模式

iBus输入法是Linux/Unix平台下的输入法框架,支持多种输入法引擎。目前已经有多数Linux发行版将iBus作为默认的输入法平台。 ibus-pinyin是由iBus官方维护的一个拼音输入法引擎,曾经基于Pyt...

红薯
2010/05/29
618
0
python实现简体中文和繁体相互转换

1. opencc-python 如果目录上的链接被屏蔽了,请手动复制 https://pypi.python.org/pypi/opencc-python/ 首先介绍opencc的python实现库,它具有安装简单,翻译准确,使用方便等优点。对于我们...

_周小董
2018/05/14
0
0
python利用utf-8编码判断中文英文字符(转)

下面这个小工具包含了判断unicode是否是汉字、数字、英文或者其他字符,全角符号转半角符号,unicode字符串归一化等工作。 !/usr/bin/env python -- coding:GBK -- """汉字处理的工具:判断u...

ranvane
2015/08/18
763
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周六乱弹 —— 早上儿子问我他是怎么来的

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @凉小生 :#今日歌曲推荐# 少点戾气,愿你和这个世界温柔以待。中岛美嘉的单曲《僕が死のうと思ったのは (曾经我也想过一了百了)》 《僕が死の...

小小编辑
今天
210
4
Excption与Error包结构,OOM 你遇到过哪些情况,SOF 你遇到过哪些情况

Throwable 是 Java 中所有错误与异常的超类,Throwable 包含两个子类,Error 与 Exception 。用于指示发生了异常情况。 Java 抛出的 Throwable 可以分成三种类型。 被检查异常(checked Exc...

Garphy
今天
10
0
计算机实现原理专题--二进制减法器(二)

在计算机实现原理专题--二进制减法器(一)中说明了基本原理,现准备说明如何来实现。 首先第一步255-b运算相当于对b进行按位取反,因此可将8个非门组成如下图的形式: 由于每次做减法时,我...

FAT_mt
昨天
6
0
好程序员大数据学习路线分享函数+map映射+元祖

好程序员大数据学习路线分享函数+map映射+元祖,大数据各个平台上的语言实现 hadoop 由java实现,2003年至今,三大块:数据处理,数据存储,数据计算 存储: hbase --> 数据成表 处理: hive --> 数...

好程序员官方
昨天
7
0
tabel 中含有复选框的列 数据理解

1、el-ui中实现某一列为复选框 实现多选非常简单: 手动添加一个el-table-column,设type属性为selction即可; 2、@selection-change事件:选项发生勾选状态变化时触发该事件 <el-table @sel...

everthing
昨天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部