文档章节

HTMLParser学习笔记

b
 badguy2014
发布于 2014/06/08 10:45
字数 211
阅读 50
收藏 3

HTMLParser编写步骤

  1. 实例化解析器

    Parser parser = new Parser(url);

  2. 设置编码器,不设置可能会导致无法解析

    parser.setEncoding("GBK");

  3. 实现NodeFilter 接口,用于定义接受筛选的内容

NodeFilter frameFilter = new NodeFilter()

{

//实现NodeFilter接口的accept方法,定义筛选的内容

    public boolean accept(Node node)

    {

        if(node.getText().startsWith("frame src=")) return true;

        else return false;

    }

};

4.如果存在多个筛选条件,使用OrFilter 或者AndFilter过滤器将将多个条件合并起来

OrFilter linkFilter = new OrFilter(new NodeClassFilter(LinkTag.class),frameFilter); //将所有有的LinkTag类接受的Tag和frameFilter合并起来,过滤出满足其中任意一条过滤规则的记录。

5.根据匹配规则执行匹配过滤并返回过来结果。

NodeList list = parser.extractAllNodesThatMatch(linkFilter);

6.解析NodeList获取过滤出来的内容。



© 著作权归作者所有

共有 人打赏支持
b
粉丝 0
博文 1
码字总数 211
作品 0
贵阳
私信 提问
扩展 HTMLParser 对自定义标签的处理能力

HTMLParser 是一个用来解析 HTML 文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。 如果是 HTML 文档,那么用 HTMLParser 已经差不多可以满足你至少 90% 的需求。...

红薯
2008/10/05
850
0
python模块之HTMLParser: 解析html,获取url

HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它...

charlesdong1989
2012/03/28
0
0
jsoup能在html文件中插入节点,删除节点并保持这个文件吗?

最近看到了oschina替换了htmlparser 为 jsoup 解析html文件,我之前也使用 htmlparser ,感觉htmlparser不是太好用,而且有的功能存在问题,不知道jsoup能在html文件中插入节点,删除节点并保...

山哥
2010/10/18
2.5K
2
Python2.7 HTMLParser模块学习

HTMLParser模块主要是用来解析HTML文件。 HTMLParser模块有一个HTMLParser类,用户在解析HTML文件时需要重定义其中handle_*方法,该类有如下方法: feed(data)分析一些文本数据 close()如果碰...

China_OS
2012/12/03
0
0
九Python之HTML的解析(网页抓取一)

对html的解析是网页抓取的基础,分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。 HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理htm...

dkz
2013/03/05
0
2

没有更多内容

加载失败,请刷新页面

加载更多

Nginx-使用简单总结

下载nginx:http://nginx.org/en/download.html 下载后解压 有很多种方法启动nginx (1)直接双击nginx.exe, 双击后一个黑色的弹窗一闪而过 (2)打开cmd命令窗口,切换到nginx解压目录下, 输入...

Java搬砖工程师
7分钟前
0
0
通过修改控制文件scn推进数据库scn

在数据库遇到ora-600[2662],scn不一致(又没有日志)的时候,我们首先想到的就是去推进数据库的scn,让数据库能够open起来,抢救其中的数据,但是由于各种乱用的情况,oraclescn的pach出来后(11.2...

突突突酱
8分钟前
1
0
Underscore _.template 方法使用详解

https://github.com/hanzichi/underscore-analysis/issues/26 前文 浅谈 Web 中前后端模板引擎的使用 我们简单了解了模板引擎在前后端的应用场景,本文重点深入 Underscore 的模板函数 _.te...

壹峰
9分钟前
0
0
前端缩短数字的长度解决方案[10进制转化为64进制]

function string10to64 (number) { var chars = '0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz_$'.split(''), radix = chars.length, qutient =......

未来cc
9分钟前
0
0
十年架构师不到400行手写一个Spring MVC

首先,我们先来介绍一下Spring的三个阶段,配置阶段、初始化阶段和运行阶段(如图): 配置阶段:主要是完成application.xml配置和Annotation配置。 初始化阶段:主要是加载并解析配置信息,...

小刀爱编程
10分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部