文档章节

分享一个非常棒的xpath教程

Feng_Yu
 Feng_Yu
发布于 2014/08/25 15:48
字数 270
阅读 6795
收藏 15

不多说,直接上地址: http://zvon.org/xxl/XPathTutorial/General/examples.html

点击左上角“中文”即可显示中文翻译实例。

xpath用于解析html,xml.xhtml这一类标签文档很方便,也很直接,用简短的语法提取标签文档的内容、属性等。

在linux下终端可以用xpath, xmllint --xpath这一类的工具来即时测试xpath语法提取效果。

一个简易的范例,从cnBeta获取首页热门新闻的标题和摘要

curl -s http://www.cnbeta.com | xmllint --html --xpath '/html/body/div/section/section/section/div/div/div[@id="hot"]/dl/dt/a' - 2>/dev/null
<a href="/articles/321967.htm" target="_blank">LG将推出圆形智能手表与摩托360竞争</a><a href="/articles/321965.htm" target="_blank">小米回应电量虚标问题 称质检总局抽样系非官方渠道购买</a><a href="/articles/321985.htm" target="_blank">充电宝冒烟 北京地铁15号线一列车清车</a>

最后xpath改为a/text()即可获取a标签内文本内容

© 著作权归作者所有

共有 人打赏支持
Feng_Yu
粉丝 159
博文 38
码字总数 45571
作品 0
西安
运维
私信 提问
加载中

评论(1)

码农与厨子
码农与厨子
赞,,,,
Java网络蜘蛛/网络爬虫--Spiderman

Spiderman - 又一个Java网络蜘蛛/爬虫 Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。 最新提示:...

自风
2012/10/21
46.3K
22
XML文件的解析--libxml库函数解释

http://zacaosansan.spaces.live.com/Blog/cns!20F577789A0BB695!206.entry 解析xml文档 解析一个xml文档,从中取出想要的信息,例如节点中包含的文字,或者某个节点的属性,其流程如下: 用...

长平狐
2012/09/03
324
0
Scrapy爬虫 (1)爬取菜鸟Git教程目录

  Scrapy作为爬虫利器,是一个很好的Pyhon爬虫框架,现在也已经支持Python3了。具体的安装过程可以参考:http://www.yiibai.com/scrapy/scrapyenvironment.html 。关于srapy的具体介绍,可...

jclian91
2017/11/24
0
0
XML/HTML 解析库--Ono

Ono (斧)是 iOS & Mac OSX 处理 XML & HTML 的一种明智的方法(解析库)。 XML 在 Cocoa 的支持并不好, 强制要求繁琐的委托模式,这是非常不方便实现的。 有一点好用,但只能在 Mac OS X...

sikkx
2015/09/17
3.3K
2
selenium webdriver(2)—页面对象定位

webdriver的元素定位很灵活,提供了多种定位方式: Id LinkText PartialLinkText Name TagName Xpath ClassName CssSelector 这些方法可以在org.openqa.selenium.By中找到,下面一一道来; 假...

测试-雨
2015/01/05
0
0

没有更多内容

加载失败,请刷新页面

加载更多

dos echo指令显示“echo处于打开状态”

dos echo指令显示“echo处于打开状态” 我用一下代码想输出 aa 变量。 一个bat文件,文件内容是: set aa = "123"echo %aa%pause 找到答案了。 set aa="123"echo %aa%pause 在aa=...

shzwork
8分钟前
2
0
【行为型】- 责任链模式

责任链模式 使多个对象都有机会处理请求,从而避免请求的发送者和接收者之间的耦合关系。将这些对象连成一条链,并沿着这条链传递该请求,直到有一个对象处理它为止(如果权限不够则直接跳转)...

ZeroneLove
10分钟前
1
0
Harbor快速部署到Kubernetes集群及登录问题解决

Harbor(https://goharbor.io)是一个功能强大的容器镜像管理和服务系统,用于提供专有容器镜像服务。随着云原生架构的广泛使用,原来由VMWare开发的Harbor也加入了云原生基金会(参考《Har...

openthings
57分钟前
2
0
MQ学习-基本概念区分

消息队列 Kafka 涉及的专有名词和术语进行定义和解释,方便您更好地理解相关概念并使用该产品。 Broker: 消息队列 Kafka 集群包含一个或多个消息处理服务器,该服务器被称为 Broker。 Topi...

os1cheng
今天
5
0
腾讯怒怼:靠红包骗用户下载怎么可以叫产品

近日,社交圈出现了大动荡,三款新推出的社交软件全部被微信封杀,对此,腾讯公关总监在回应外界对于1月15日三款社交新产品撼动微信的消息,他呼吁媒体在批评的同时应当尊重事实,“我们尊重...

linux-tao
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部