文档章节

HTML 解析库

icanactnow
 icanactnow
发布于 2017/11/06 23:59
字数 365
阅读 3
收藏 0

pyquery 使用

参考

from pyquery import PyQuery as pq
from lxml import etree
#四种创建对象的方法
doc1 =pq(etree.fromstring('<div> <tr class="item-0"> <td>first section</td> <td>1111</td> <td>17-01-28 22:51</td> </tr> <tr class="item-1"> <td>second section</td> <td>2222</td> <td>17-01-28 22:53</td> </tr> </div>'))
doc2 = pq('<div><div> <tr class="item-0"> <td>first section</td> <td>1111</td> <td>17-01-28 22:51</td> </tr> <tr class="item-1"> <td>second section</td> <td>2222</td> <td>17-01-28 22:53</td> </tr> </div>')
#直接给html字符串创建对象
doc3 = pq(filename ='hello')#给html文件
doc4 = pq(url = 'http://google.com')#给url
doc('.class')#获取对应class的对象
doc('#id')#获取对应的id对象
data = doc('tr')#以list形式返回文件中tr元素
for tr in doc('tr').items:
    print(tr('td').eq(2).text)#输出tr元素中第二个td元素的文本。
doc('p').attr('id')#获取p标签的属性id值
doc('p').find('#n')#在p块中查找id

beautifulsoup4

beautifulsoup4

同上

# beautiful练习
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc,'lxml')
print(soup.prettify())#格式化输出html
print(soup.title.string)
for link in soup.find_all('a'):#获取输出所有a标签的链接
    print(link.get('href'))
print(soup.get_text())#输出所有的文本

© 著作权归作者所有

上一篇: Django 杂记
下一篇: linux杂记
icanactnow
粉丝 0
博文 22
码字总数 15718
作品 0
西安
私信 提问
python-60:Python 爬虫的工具列表

本文转载自伯乐在线:http://python.jobbole.com/82633/ 这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib)。 requests -网络库。 grab - 网络库(基于pycurl)...

达岭凹老大
2015/12/15
495
2
Requests 与 BeautifulSoup 模块

一、Requests库 参考 :http://www.python-requests.org/en/master/user/quickstart/#make-a-request Requests是一个很实用的Python HTTP客户端库,编写爬虫和测试服务器响应数据时经常会用到...

meteor_hy
2017/11/14
0
0
python自我学习 二 爬一个图片网站上

前面的章节 Python安装 python自我学习 一 python语法,及变量类型 本节章节 爬一个图片网站上 爬虫是啥 网络爬虫是什么? 看意思是一个虫子,一个什么虫子?实际上指的是蜘蛛spider。 蜘蛛结...

gudianxiaoshuo
2017/12/27
0
0
Python 爬虫工具列表

本文转载自伯乐在线:http://python.jobbole.com/82633/ 这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib)。 requests -网络库。 grab - 网络库(基于pycurl)...

好铁
2016/03/16
1K
1
Python 爬虫的工具列表大全

即然提到了爬虫,就从网上理了一份python爬虫相关的包。包含与网页抓取和数据处理的Python库 0x00 网络 1)通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库(基于pycurl)。...

mickelfeng
2016/08/03
116
0

没有更多内容

加载失败,请刷新页面

加载更多

使用原生css+js+html实现打印A4纸张的功能页面

有时候我们需要使用html+css实现打印A4纸张的功能页面,以下代码实现 <!DOCTYPE html><html lang="zh-CN"> <head> <meta charset="utf-8"> <meta http-equiv="X-UA-Compatibl......

b0cloud
19分钟前
2
0
读组件化之MGJRouter源码第二次的收获与思考

上一次我们写好了一个自定义的 路由类 ,然后我们来制作自己的 库 ,可以用来被 pod 引入 : 库的制作参考:https://www.jianshu.com/p/928d2ab053be 以下是我创建的: 利用上篇提到的 ,组件...

T型人才追梦者
20分钟前
1
0
spring cache、ehcache的使用及集成

项目中需要加缓存,故学习了 1、spring cache、ehcache的使用及集成 2、缓存的命中率等统计数据 一、spring cache 1、概述 Spring 3.1 引入了基于注解(annotation)的缓存(cache)技术 2、...

qkKing
21分钟前
3
0
Windows 10上源码编译Poco并编写httpserver和tcpserver | compile and install poco cpp library on windows

本文首发于个人博客https://kezunlin.me/post/9587bb47/,欢迎阅读! compile and install poco cpp library on windows Series guide to compile and install poco cpp library on windows g......

kezunlin
22分钟前
2
0
if-else-if-else与switch的区别

if-else-if-else: 适合分支较少 判断条件类型不单一 支持取 boolean 类型的所有运算 满足条件即停止对后续分支语句的执行 switch: 适合分支较多 判断条件类型单一,JDK 1.7 之前仅支持 in...

ConstXiong
22分钟前
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部