文档章节

Python2.7 HTMLParser模块学习

China_OS
 China_OS
发布于 2012/12/03 21:23
字数 241
阅读 1K
收藏 1

HTMLParser模块主要是用来解析HTML文件。

HTMLParser模块有一个HTMLParser类,用户在解析HTML文件时需要重定义其中handle_*方法,该类有如下方法:

feed(data)分析一些文本数据
close()如果碰到文件结束标记,强制处理缓冲区数据
reset()重置实例,所有未处理的数据都会丢失,初始化时自动调用
getpos()返回当前行的偏移位置,行列
get_starttag_text()返回最近打开过的开始标记文本


handle_starttar(tag,attrs)这个方法处理开始的标记,tag是标记的名称,都会被转化为小写来处理。attrs是一对(name,value)对
handle_endtag(tag)这个方法处理结尾的标记
handle_startendtag(tag,attrs)和handle_starttag类似,但是如果遇到空标记,
handle_data(data)这个方法用来处理数据
handle_entityref(name)
handle_charref(name)
handle_comment(data)这个方法处理注释,<!--comment-->
handle_decl(decl)这个方法处理doctype declaration

© 著作权归作者所有

上一篇: 系统调用
下一篇: 进程调度
China_OS
粉丝 428
博文 463
码字总数 520228
作品 0
静安
技术主管
私信 提问
加载中

评论(0)

python模块之HTMLParser: 解析html,获取url

HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它...

charlesdong1989
2012/03/28
264
0
扩展 HTMLParser 对自定义标签的处理能力

HTMLParser 是一个用来解析 HTML 文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。 如果是 HTML 文档,那么用 HTMLParser 已经差不多可以满足你至少 90% 的需求。...

红薯
2008/10/05
860
0
解析--import--htmllib--xml

--import ConfigParser 模块------解析配置文件--------------------------------------------------------------------- test.conf内容: [first] w = 2 v: 3 c =11-3 [second] sw=4 test: ......

liapple6
2018/10/28
0
0
九Python之HTML的解析(网页抓取一)

对html的解析是网页抓取的基础,分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。 HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理htm...

dkz
2013/03/05
1.7K
2
jsoup能在html文件中插入节点,删除节点并保持这个文件吗?

最近看到了oschina替换了htmlparser 为 jsoup 解析html文件,我之前也使用 htmlparser ,感觉htmlparser不是太好用,而且有的功能存在问题,不知道jsoup能在html文件中插入节点,删除节点并保...

山哥
2010/10/18
2.6K
2

没有更多内容

加载失败,请刷新页面

加载更多

如何获得元素的渲染高度?

如何获得元素的渲染高度? 假设您有一个<div>元素,其中包含一些内容。 内部的内容将扩展<div>的高度。 当您没有明确设置高度时,如何获得“渲染的”高度。 显然,我尝试过: var h = docume...

技术盛宴
35分钟前
40
0
zookeeper宕机与dubbo直连

加入zookeeper宕机后,一段时间内consumer依然能够获取provider的服务,实际上使用了本地缓存进行通讯,这也是dubbo健壮性的一种体验。 dubbo健壮性的表现: 1.监控中心宕机,不影响使用,只...

七宝1
36分钟前
44
0
一分钟了解【X-Frame-Options设置】

含义 通过设置X-Frame-Options来控制网页能否被frame或iframe嵌入。 目的 防止出现 点击劫持 :攻击者使用一个透明的iframe,覆盖在一个网页上,然后诱使用户在网页上进行操作,此时用户将在...

crazymus
43分钟前
48
0
如何在JDBC中获取插入ID?

我想使用Java中的JDBC在数据库(在我的情况下为Microsoft SQL Server)中INSERT一条记录。 同时,我想获取插入ID。 如何使用JDBC API实现此目的? #1楼 我正在使用SQLServer 2008,但是我有一...

javail
50分钟前
58
0
【小程序_01】小程序概述

一、小程序简介 1. 什么是小程序 小程序是一种不需要下载、安装即可使用的应用,它实现了触手可及的梦想,用户扫一扫或者搜一下就能打开应用,也实现了用完即走的理念,用户不用安装太多应用...

Demo_Null
57分钟前
24
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部