文档章节

HTMLParser学习笔记

b
 badguy2014
发布于 2014/06/08 10:45
字数 211
阅读 50
收藏 3
点赞 0
评论 0

HTMLParser编写步骤

  1. 实例化解析器

    Parser parser = new Parser(url);

  2. 设置编码器,不设置可能会导致无法解析

    parser.setEncoding("GBK");

  3. 实现NodeFilter 接口,用于定义接受筛选的内容

NodeFilter frameFilter = new NodeFilter()

{

//实现NodeFilter接口的accept方法,定义筛选的内容

    public boolean accept(Node node)

    {

        if(node.getText().startsWith("frame src=")) return true;

        else return false;

    }

};

4.如果存在多个筛选条件,使用OrFilter 或者AndFilter过滤器将将多个条件合并起来

OrFilter linkFilter = new OrFilter(new NodeClassFilter(LinkTag.class),frameFilter); //将所有有的LinkTag类接受的Tag和frameFilter合并起来,过滤出满足其中任意一条过滤规则的记录。

5.根据匹配规则执行匹配过滤并返回过来结果。

NodeList list = parser.extractAllNodesThatMatch(linkFilter);

6.解析NodeList获取过滤出来的内容。



© 著作权归作者所有

共有 人打赏支持
b
粉丝 0
博文 1
码字总数 211
作品 0
贵阳
手动将本地jar添加到Maven仓库

一、将jar添加到本地仓库的做法:以下面pom.xml依赖的jar包为例:实际项目中pom.xml依赖写法: Maven 安装 JAR 包的命令是: 例如我的这个spring-context-support-3.1.0.RELEASE.jar 文件放在...

zph-alan ⋅ 2017/09/26 ⋅ 0

.NET Core 网络数据采集 -- 使用AngleSharp做html解析

有这么一本Python的书: <> 我准备用.NET Core及第三方库实现里面所有的例子. 这是第一部分, 主要使用的是AngleSharp: https://anglesharp.github.io/ (文章的章节书与该书是对应的) 第1章 初...

solenovex ⋅ 04/29 ⋅ 0

Python爬取58同城广州房源+可视化分析

感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定! 对商业智能BI、大数据分析挖...

天善智能 ⋅ 05/21 ⋅ 0

Python3萌新入门笔记(52)

Python3萌新入门笔记(52) Python自动化运维2017-12-046 阅读 PythonPython教程HTMLParserurllib 这一篇教程,我们来了解如何爬取网页内容。 这里我们可以使用urllib这个模块。 基于前面的学...

Python自动化运维 ⋅ 2017/12/04 ⋅ 0

python模块学习---HTMLParser(解析HTML文档元素)

HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析。 本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义函数: handlestartt...

云栖希望。 ⋅ 2017/12/04 ⋅ 0

扩展 HTMLParser 对自定义标签的处理能力

HTMLParser 是一个用来解析 HTML 文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。 如果是 HTML 文档,那么用 HTMLParser 已经差不多可以满足你至少 90% 的需求。...

红薯 ⋅ 2008/10/05 ⋅ 0

Python爬虫笔记

地址:https://github.com/YangZhouChaoFan/spider4p 1:使用urllib的获取html内容 2:使用html.parser.HTMLParser解析html内容,并根据正则匹配url下载文件。 测试:爬了煎蛋网xxoo页面20页...

扬州炒饭 ⋅ 2015/12/22 ⋅ 0

Python2.7 HTMLParser模块学习

HTMLParser模块主要是用来解析HTML文件。 HTMLParser模块有一个HTMLParser类,用户在解析HTML文件时需要重定义其中handle_*方法,该类有如下方法: feed(data)分析一些文本数据 close()如果碰...

China_OS ⋅ 2012/12/03 ⋅ 0

《自己动手写网络爬虫》读书笔记-简单抓取实例

共包括6个文件,实现获取指定站点的url,并下载页面到本地。 主要支持包: Queue.java package com.hkc.core; import java.util.LinkedList; /** *用链表方式实现队列,用来存储未访问过的u...

萝卜丁辣子 ⋅ 2012/09/19 ⋅ 0

HTMLParser-简单HTML和XHTML解析

使用HTMLParser模块解析HTML页面 HTMLParser是python用来解析html和xhtml文件格式的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。HTMLParser采用的是一种事件驱动...

云栖希望。 ⋅ 2017/12/04 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

熊掌号收录比例对于网站原创数据排名的影响[图]

从去年下半年开始,我在写博客了,因为我觉得业余写写博客也还是很不错的,但是从2017年下半年开始,百度已经推出了原创保护功能和熊掌号平台,为此,我也提交了不少以前的老数据,而这些历史...

原创小博客 ⋅ 41分钟前 ⋅ 0

LVM讲解、磁盘故障小案例

LVM LVM就是动态卷管理,可以将多个硬盘和硬盘分区做成一个逻辑卷,并把这个逻辑卷作为一个整体来统一管理,动态对分区进行扩缩空间大小,安全快捷方便管理。 1.新建分区,更改类型为8e 即L...

蛋黄Yolks ⋅ 59分钟前 ⋅ 0

Hadoop Yarn调度器的选择和使用

一、引言 Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。 上图是Yarn的基本架构,其中ResourceManager是整个架构的核心组件,它负...

p柯西 ⋅ 今天 ⋅ 0

uWSGI + Django @ Ubuntu

创建 Django App Project 创建后, 可以看到路径下有一个wsgi.py的问题 uWSGI运行 直接命令行运行 利用如下命令, 可直接访问 uwsgi --http :8080 --wsgi-file dj/wsgi.py 配置文件 & 运行 [u...

袁祾 ⋅ 今天 ⋅ 0

JVM堆的理解

在JVM中,我们经常提到的就是堆了,堆确实很重要,其实,除了堆之外,还有几个重要的模块,看下图: 大 多数情况下,我们并不需要关心JVM的底层,但是如果了解它的话,对于我们系统调优是非常...

不羁之后 ⋅ 昨天 ⋅ 0

推荐:并发情况下:Java HashMap 形成死循环的原因

在淘宝内网里看到同事发了贴说了一个CPU被100%的线上故障,并且这个事发生了很多次,原因是在Java语言在并发情况下使用HashMap造成Race Condition,从而导致死循环。这个事情我4、5年前也经历...

码代码的小司机 ⋅ 昨天 ⋅ 1

聊聊spring cloud gateway的RetryGatewayFilter

序 本文主要研究一下spring cloud gateway的RetryGatewayFilter GatewayAutoConfiguration spring-cloud-gateway-core-2.0.0.RC2-sources.jar!/org/springframework/cloud/gateway/config/G......

go4it ⋅ 昨天 ⋅ 0

创建新用户和授予MySQL中的权限教程

导读 MySQL是一个开源数据库管理软件,可帮助用户存储,组织和以后检索数据。 它有多种选项来授予特定用户在表和数据库中的细微的权限 - 本教程将简要介绍一些选项。 如何创建新用户 在MySQL...

问题终结者 ⋅ 昨天 ⋅ 0

android -------- 颜色的半透明效果配置

最近有朋友问我 Android 背景颜色的半透明效果配置,我网上看资料,总结了一下, 开发中也是常常遇到的,所以来写篇博客 常用的颜色值格式有: RGB ARGB RRGGBB AARRGGBB 这4种 透明度 透明度...

切切歆语 ⋅ 昨天 ⋅ 0

CentOS开机启动subversion

建立自启动脚本: vim /etc/init.d/subversion 输入如下内容: #!/bin/bash## subversion startup script for the server## chkconfig: 2345 90 10# description: start the subve......

随风而飘 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部