文档章节

python中HTML Entities处理及print特殊字符

字节码间
 字节码间
发布于 2017/03/27 10:50
字数 225
阅读 36
收藏 0

python3中处理HTML Entities:

from html.parser import HTMLParser
str = HTMLParser.unescape('utf8’,’Orange Blossom Body Crème/5.9 oz.’)
str = HTMLParser.unescape('© 2010')

 

python2中:

import HTMLParser
html_cont = " asdfg>123<  &#62;"
html_parser = HTMLParser.HTMLParser()
new_cont = html_parser.unescape(html_cont)
print new_cont #new_cont = " asdfg>123<"


html特殊字符转移表:http://www.cnblogs.com/lf6112/p/4952001.html
参考文章:http://fredericiana.com/2010/10/08/decoding-html-entities-to-text-in-python/

 

Java中可用:

org.apache.commons.lang3.StringEscapeUtils.unescapeHtml4(String);

 

 

print特殊字符:


#方式1
import sys
sys.stdout = open(1, 'w', encoding='utf-8', closefd=False)
print("vadsэавфыаЭХÜÜÄ")

#方式2
print(bytes("аЭХÜ", "utf-8"))

#方式3
TestText = "Test - āĀēĒčČ..šŠūŪžŽ" # this NOT utf-8...it is a Unicode string in Python 3.X.
TestText2 = TestText.encode('utf8') # THIS is "just bytes" in UTF-8.
print(TestText2)

import sys
sys.stdout.buffer.write(TestText2)

#方式4
utf8stdout = open(1, 'w', encoding='utf-8', closefd=False) # fd 1 is stdout
print('Test - āĀēĒčČ..šŠūŪžŽ33', file=utf8stdout)

#方式5
print('Test - āĀēĒčČ..šŠūŪžŽ33'.encode('utf8'))
text='中文524μg/m³'.encode('gbk', 'ignore').decode('gbk') 
print(text) 



 

 

© 著作权归作者所有

字节码间
粉丝 1
博文 18
码字总数 5902
作品 0
西安
私信 提问
解析--import--htmllib--xml

--import ConfigParser 模块------解析配置文件--------------------------------------------------------------------- test.conf内容: [first] w = 2 v: 3 c =11-3 [second] sw=4 test: ......

liapple6
2018/10/28
0
0
正则表达式--import--re--string

-- --import------import string 模块---Python 字符串内置函数--------字符串方法是从python1.6到2.0慢慢加进来的——它们也被加到了Jython中-- -- 这些方法实现了string模块的大部分方法,...

liapple6
2018/10/28
0
0
python基础:变量的简单介绍

Python是一种高级的、面向对象的、解释性的脚本语言。 Python的作者,Guido von Rossum(吉多·范罗苏姆),荷兰人。 1989年,为了打发圣诞节假期,Guido开始写Python语言的编译器。Python这...

坎坷之路
2018/12/24
0
0
python模块之HTMLParser: 解析html,获取url

HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它...

charlesdong1989
2012/03/28
0
0
002---Python基本数据类型--字符串

  定义:字符串是一个有序的字符集合,用来存储和表示文本信息。用双引和单引表示。是一种不可变类型。      创建:      In [9]:      s = 'Hello Python'      print(s...

SEOwhywhy
2018/12/06
0
0

没有更多内容

加载失败,请刷新页面

加载更多

读书replay《maven实战》.1.20190526

前情提要 maven这个工具用了好久了,但是一直都用的迷迷糊糊的,没有对它进行过系统性的学习,只是知道一些常用的功能怎么实现,所以20190516这一天我从JD购买了徐晓斌老师所著的《maven实战...

wanxiangming
28分钟前
0
0
真实项目案例实战——【状态设计模式】使用场景

什么是状态模式 状态模式允许一个对象在其内部状态改变的时候改变其行为。这个对象看上去就像是改变了它的类一样。 状态模式应用场景 1.一个对象的行为取决于它的状态,并且它必须在运行时刻根...

须臾之余
35分钟前
0
0
Java 实现把字符串转换成整数【底层实现】

https://blog.csdn.net/zl18310999566/article/details/80263396

qimh
38分钟前
0
0
IDEA的debugger

1、win下节省内存空间 3、条件断点

一只小青蛙
49分钟前
3
0
炸!亿级数据DB秒级平滑扩容

一步一步,娓娓道来。 一般来说,并发量大,吞吐量大的互联网分层架构是怎么样的? 数据库上层都有一个微服务,服务层记录“业务库”与“数据库实例配置”的映射关系,通过数据库连接池向数据...

编程SHA
55分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部