文档章节

前嗅ForeSpider脚本教程-链接抽取:应用场景及链接在源码的html标签里写脚本

forespider
 forespider
发布于 04/09 14:20
字数 612
阅读 3
收藏 0

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中,链接抽取的应用场景,以及链接在源码的html标签里写脚本的实战教程。具体内容如下:

一.应用场景

当需要手动添加链接时,可添加链接脚本。

在“链接脚本处”,可能用到的类为extractor 、result、url、grabDoc、dom。

二.链接在源码的html标签里

链接地址可在源码中查找到。在目标网页右键,选择“查看源代码”,键盘点击“ctrl+F”,查找目标链接所在位置。目标链接存在于标签中。

1.链接需要循环

场景:比如翻页等规律相同的一系列目标链接,存在于一个大的ul标签或者div标签里。

示例:获取CSDN首页文章列表链接。

在该网页右键选择“查看源文件”,查找第一条链接的链接地址,定位目标数据位置。

将该源码粘贴到notepad++中,选择语言为html,搜索目标数据的所在位置“ul”标签的id值。

由图可知,列表页文章链接位于每个li中的a标签的href中。

脚本实例:暂无。

2.链接不循环

场景:获取更多链接,链接不像翻页那页具有自增性的规律。

示例:获取该网站更多的招标公告信息。

获取更多的招标公告信息,需要点击“更多”按钮。在该网页右键选择“查看源文件”,定位链接所在位置。

因<a>标签名,和父级<div>的class属性都在多处存在,因此需要再向上查找节点,直到id为tab2-list的<div>。

脚本实例:

var div = DOM.FindId("tab2-list");//先查找div

var a = DOM.FindClass("more","a",div );//从上一行找到的div开始查找,class属性为more的a标签。

url u;

u.urlname = "http://www.bgpc.gov.cn"+a.href; //拼接完整的链接地址

u.title = "更多"; //填写title

u.entryId = CHANN.id;

u.tmplId = 2;

RESULT.AddLink(u);

© 著作权归作者所有

forespider
粉丝 5
博文 104
码字总数 108783
作品 0
天津
私信 提问
前嗅ForeSpider脚本教程-数据抽取脚本实战教程

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-数据抽取脚本实战教程的,应用场景,数据在源码的html标签里写脚本。具体内容如下: 一.应用场景 当所需要的数据字段大部分需要配置脚...

forespider
04/17
4
0
前嗅ForeSpider脚本教程-链接抽取:链接在POST请求里写脚本

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接抽取中,链接在POST请求里写脚本的实战教程。具体内容如下: 当链接地址在源码中不存在,存在于post请求中时,需要使用浏览器的开...

forespider
04/11
8
0
前嗅ForeSpider脚本教程-链接抽取:自定义链接写脚本

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接抽取中,自定义链接写脚本的实战教程。具体内容如下: 场景:当采集的链接不存在于任何位置,或者想要采集自定义的链接。示例:天...

forespider
04/12
8
0
前嗅ForeSpider脚本教程-链接抽取:链接在源码的js变量里写脚本

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接抽取中,链接在源码的js变量里写脚本的实战教程。具体内容如下: 链接地址可在源码中查找到。在目标网页右键,选择“查看源代码”...

forespider
04/10
2
0
前嗅ForeSpider脚本教程-链接过滤脚本

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接过滤脚本,应用场景,地址/标题过滤。具体内容如下: 一.应用场景 当可视化抽取到的链接包含不想要的链接地址时,需要进行过滤。...

forespider
04/15
5
0

没有更多内容

加载失败,请刷新页面

加载更多

JS--function

一、声明提前(hoist) 在js程序开始执行前,引擎会查找所有var声明的变量和function声明的函数,集中到当前作用域顶部集中创建,赋值留在原地 二、三种创建函数的方式 1、声明方式创建函数-...

wytao1995
今天
4
0
微服务之间调用控制器注解类型的差异

今天在一个业务服务通过Feign调用文件服务上传文件时遇到了几个问题: 1. 提示http请求头过大的问题; 此时需要修改bootstrap.yml,加入 server: max-http-header-size: 10000000 用以放大...

不再熬夜
今天
6
0
用 4G 工作是什么体验

七月开始,因为工作原因,在公司附近租了个住处,方便工作。离公司近了,感觉就是不一样,之前每天 5:30 就要起床赶地铁,现在可以睡到自然醒,一看才 7 点,悠闲的起床洗漱,踱步到公司,都...

zzxworld
今天
6
0
sonar报错volatile

问题发生 原先代码如下: //认证授权码private static volatile String AUTHORIZATION_CODE = "init"; git push 之后,sonar认为这是个bug检测报告截图如下: 分析排查 解释说明: Markin...

开源小菜鸟2333
今天
5
0
《Java实践指南》--读后

闲读《Java实践指南》... 1.lvy 某些项目中能够看到ivy.xml。早期使用ant的项目中,常常用ivy.xml来下载项目依赖。 2.ant 作为java程序员,应该都知道ant,虽然可能用过的人不多。为什么ant...

RippleChan
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部