文档章节

短小精悍的JavaHtml解析器Jsoup

secondriver
 secondriver
发布于 2015/09/17 09:24
字数 833
阅读 124
收藏 2

  短小精悍的Jsoup组件让Java解析HTML更加人性化,通俗易懂的Css选择风格的结点筛选,原生的DOM操作,让jQuery用户倍感亲切。

  Jsoup:http://jsoup.org/

  选择Jsoup绝对是一个正确的明智的选择,一个小小的Jar包,几十个类解决了Java解析HTML,生成HTML,各种转换,修改,结点,属性筛选,过滤,抓取等功能,更让Web开发者舒服的是Safe,简洁的几行代码解决了XSS问题。

 通过下面几个例子感受Jsoup的简洁,强大之处。

 1.获取指定URL的base路径

 

/**
     * 获取网页的Base地址
     *
     * @throws IOException
     */
    @Ignore
    @Test
    public void test1() throws IOException {
        Document doc = Jsoup.connect("http://www.fx368.com/index/").get();
        System.out.println(doc.baseUri());
    }

  注:结果输出:http://www.fx368.com/index/

      通过指定URL获取链接,通过链式操作得到HTML文档,然后就是Jsoup为我们提供的一系列方法来进行DOM的节点操作。

 2.获取指定URL网页上img标签的src值

 

/**
     * 抓取网页上的img标签的src
     *
     * @throws IOException
     */
    @Ignore
    @Test
    public void test2() throws IOException {
        Document doc = Jsoup.connect("http://www.fx368.com/index/").get();
        Elements ele = doc.getElementsByTag("img");
        for (Element e : ele) {
            System.out.println(e.attr("src"));
        }
    }

    注:Element.attr("src")获取的结果是DOM中实际的值比如:"/img/header.png"

        Element.absUrl("src")获取的结果是src的正真的值比如:"http://www.fx368.com/img/header.png".

 2.通过Css选择器方式筛选节点

 

/**
     * 抓取51cto博客博文列表
     *
     * @throws IOException
     */
    @Ignore
    @Test
    public void test3() throws IOException {
        Document doc = Jsoup.connect(
                "http://aiilive.blog.51cto.com/all/1925756").get();
        Elements elements = doc.select("div.modCon").select("ul").select("li")
                .select("span.artList_tit").select("a");
        ListIterator<Element> iter = elements.listIterator();
        System.out.println(doc.baseUri());
        while (iter.hasNext()) {
            System.out.println(iter.next().absUrl("href"));
        }
    }

    看到上面的doc.xxx后跟的一系列select方法,其中有按标签,标签+样式筛选来获取需要的结点元素,然后获取元素的属性。

    这里的select("xxx")方法的参数是一个字符串,字符串的规则和jQuery操作DOM的选择器规则一致。

    上面代码实现了指定用户的博文地址列表链接信息,关于如何书写选择器的条件需要分析实际情况下的DOM结构。

 4.获取指定的一篇博文

   

/**
     * 获取一篇博文的正文内容
     *
     * @throws IOException
     */
    @Ignore
    @Test
    public void test6() throws IOException {
        Document doc = Jsoup.parse(new URL(
                "http://aiilive.blog.51cto.com/1925756/1024304"), 10000);
        Elements head = doc.select("div.showHead");
        String title = head.select("div.showTitle").text();
        System.out.println(title);
        Elements tag = doc.select("div.showTags");
        Elements copyright = doc.select("div.CopyrightStatement lh22");
        Elements content = doc.select("div.showContent");
        StringBuilder sb = new StringBuilder();
        sb.append(head.html());
        sb.append(tag.html());
        sb.append(copyright.html());
        sb.append(content.html());
        Document blog = Jsoup.parseBodyFragment(sb.toString());
        System.out.println(blog.html());
    }

    注:使用Element.html()和Element.text()是不同的,前者是获取整个元素,后者是获取元素的内容。

    例如:

    <a href="xx">http://aiilive.blog.51cto.com</a>

    doc.select("a").html()结果是:<a href="xx">http://aiilive.blog.51cto.com</a>

    doc.select("a").text()结果是:http://aiilive.blog.51cto.com

    jsoup提供了比较完备的解析HTML方法,本身源代码也很少,可以很快熟悉并掌握,使用Jsoup抓取网页中的一部分生成新的HTML文档,修改文档的元素信息,追加,过滤HTML标签,类似jQuery对DOM操作的功能。

    Jsoup为解决一些HTML过滤等问题提供了很便利且可以自定义的功能。  

   j_0001.gif 就写这么多了,做例子为了熟悉用法,要想熟练多用,多尝试,多发现,越新鲜,发挥的功效越强大。


本文出自 “野马红尘” 博客,谢绝转载!

© 著作权归作者所有

secondriver
粉丝 10
博文 229
码字总数 233821
作品 0
广州
程序员
私信 提问
jsoup 1.1.1 发布,HTML解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容,当然也可以直接修改 DOM 数据。 此次 jsoup 直接从 0.3.1 版本直接升级到 1.1.1 ,倒不知道是何故。 该版本支持新的...

红薯
2010/06/08
1K
0
HTML解析器--jsoup

本站使用 jsoup 来解析 HTML。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作...

匿名
2010/01/31
123.7K
31
jsoup 1.6.0 发布,支持 HTML5 解析

该版本包含一个支持 HTML5 的解析器分支,可确保跟现在的浏览器一样解析 HTML 的方法,同时降低了解析的时间和内存的占用。增加一些新的常用方法,例如 Element.unwrap() and Node.after() ...

红薯
2011/06/13
2.3K
7
OSChina原创:使用 jsoup 对 HTML 文档进行解析和操作

jsoup 简介 Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从HTML中攫取你所需的信息 和扩展 HT...

红薯
2010/12/17
17.8K
38
开源中国8-2期软件推荐 jsoup — Java的HTML解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。本站就是采用 jsoup 来做 HTML 处理。 示例代码: File input = new File("/tmp/input.html"); Document doc = Jso......

鉴客
2010/08/09
1K
0

没有更多内容

加载失败,请刷新页面

加载更多

java通过ServerSocket与Socket实现通信

首先说一下ServerSocket与Socket. 1.ServerSocket ServerSocket是用来监听客户端Socket连接的类,如果没有连接会一直处于等待状态. ServetSocket有三个构造方法: (1) ServerSocket(int port);...

Blueeeeeee
今天
6
0
用 Sphinx 搭建博客时,如何自定义插件?

之前有不少同学看过我的个人博客(http://python-online.cn),也根据我写的教程完成了自己个人站点的搭建。 点此:使用 Python 30分钟 教你快速搭建一个博客 为防有的同学不清楚 Sphinx ,这...

王炳明
昨天
5
0
黑客之道-40本书籍助你快速入门黑客技术免费下载

场景 黑客是一个中文词语,皆源自英文hacker,随着灰鸽子的出现,灰鸽子成为了很多假借黑客名义控制他人电脑的黑客技术,于是出现了“骇客”与"黑客"分家。2012年电影频道节目中心出品的电影...

badaoliumang
昨天
15
0
很遗憾,没有一篇文章能讲清楚线程的生命周期!

(手机横屏看源码更方便) 注:java源码分析部分如无特殊说明均基于 java8 版本。 简介 大家都知道线程是有生命周期,但是彤哥可以认真负责地告诉你网上几乎没有一篇文章讲得是完全正确的。 ...

彤哥读源码
昨天
15
0
jquery--DOM操作基础

本文转载于:专业的前端网站➭jquery--DOM操作基础 元素的访问 元素属性操作 获取:attr(name);$("#my").attr("src"); 设置:attr(name,value);$("#myImg").attr("src","images/1.jpg"); ......

前端老手
昨天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部