文档章节

Beautiful Soup

村雨1943
 村雨1943
发布于 11/19 08:28
字数 456
阅读 14
收藏 0

定义

Python中的一个库,主要用于从网页爬取数据;

安装

pip install beautifulsoup4

四大对象

Beautiful Soup将复杂的HTML文档转换成树形结构,树中的每个节点都是Python对象,对象可归纳为以下4种;

Tag

XMLHTML中的标签tag相同,tag属性可被增删修改,操作方法和字典一样,最常用的属性如下;

  • name
  • attributes

NavigableString

获取标签之后,用于获取标签内部的文字;

BeautifulSoup

表示一个文档的全部内容,大多数情况下都可以将它当作Tag对象,是一个特殊的Tag对象,可用于分别获取其类型、名称及属性;

Comment

Comment是一个中枢类型的NavigableString对象,输出内容不含注释符号;

#!/usr/bin/python3
# -*- coding:utf-8 -*-
# @Time    : 2018-11-16 10:30
# @Author  : Manu
# @Site    : 
# @File    : beautiful_soup.py
# @Software: PyCharm

from bs4 import BeautifulSoup

html = """
<html>
<head>
<title>村雨</title>
</head>
<body>
<p class="title" name="blog"><b>村雨的博客</b></p>
<li><!--注释--></li>
<a href="https://blog.csdn.net/github_39655029/article/details/83933199" target="_blank">
        <span class="article-type type-1">
            原        </span>
        Python爬虫之网络请求      </a>

<a href="https://blog.csdn.net/github_39655029/article/details/84100458" target="_blank">
        <span class="article-type type-1">
            原        </span>
        爬虫实践--豆瓣电影当前上映电影信息爬取      </a>
        
</body>
</html>
"""
soup = BeautifulSoup(html, 'lxml')
print(soup.name)
print(soup.title.name)
print(soup.prettify())
# 获取title
print('title:', soup.title.text)
# 获取head
print('p:', soup.p.text)
a_list = soup.a.attrs
print(a_list.get('href'))

# 获取Title标签的文字内容
print(soup.title.string)

# 获取对象名称
print(soup.name)
# 获取对象属性
print(soup.attrs)
# 获取对象类型
print(type(soup.name))
if type(soup.li.string) == element.Comment:
    print('comment:', soup.li.string)

image

© 著作权归作者所有

共有 人打赏支持
村雨1943
粉丝 5
博文 27
码字总数 24460
作品 0
私信 提问
Python的HTML解析器--BeautifulSoup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 使用...

匿名
2010/01/19
13K
1
Beautiful Soup库入门

Beautiful Soup简介与安装 简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的python式的函数用来处理导航、搜索...

zengxiantao1994
2017/10/16
0
0
python中用beautifulSoup+urlib2 安装、抓取和解析网页,以及解析shtml

安装 Beautiful Soup¶ 如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装: $ apt-get install Python-bs4 Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理...

不容置喙
2014/10/05
0
0
Beautiful Soup 中文文档

Beautiful Soup 中文文档 http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html 原文 by Leonard Richardson(leonardr@segfault.org) 翻译 by Richie Yan(richieyan@gm......

openthings
2016/01/09
81
0
网页分析工具beautifulsoup学习

BeautifulSoup是一个用来解析HTML和XML的python库,它可以按照你喜欢的方式去解析文件,查找并修改解析树。它可以很好的处理不规范标记并生成剖析树(parse tree). 它提供简单又常用的导航(na...

openthings
2016/01/09
42
0

没有更多内容

加载失败,请刷新页面

加载更多

Spring Cloud Stream消费失败后的处理策略(四):重新入队(RabbitMQ)

应用场景 之前我们已经通过《Spring Cloud Stream消费失败后的处理策略(一):自动重试》一文介绍了Spring Cloud Stream默认的消息重试功能。本文将介绍RabbitMQ的binder提供的另外一种重试...

程序猿DD
29分钟前
0
0
kiss原则

KISS 原则是用户体验的高层境界,简单地理解这句话,就是要把一个产品做得连白痴都会用,因而也被称为“懒人原则”。换句话说来,”简单就是美“。KISS 原则源于 David Mamet(大卫马梅)的电...

NB-One
31分钟前
7
0
MYSQL事务处理

INNODB 事务里,所有表引擎必须为INNODB,在非实务表上操作,不会警告,不会报错,但没有效果

关元
今天
3
0
cmake 编译脚本

#!/bin/sh test -d build || mkdir -p build cd build cmake .. make

shzwork
今天
2
0
从零开始实现Vue简单的Toast插件

概述: 在前端项目中,有时会需要通知、提示一些信息给用户,尤其是在后台系统中,操作的正确与否,都需要给与用户一些信息。 1. 实例 在Vue组件的methods内,调用如下代码 `this``.$toast({...

前端小攻略
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部