文档章节

前嗅ForeSpider教程:链接抽取

forespider
 forespider
发布于 02/22 17:42
字数 867
阅读 12
收藏 0

今天,小编为大家带来的是:在前嗅ForeSpider采集过程中,链接抽取操作中的一系列知识点,主要内容有:如何关联模板,如何判断模板关联是否正确,选择链接类型以及过滤的三种方式。具体内容如下:

一,如何关联模板

“链接抽取”抽出链接后,需要采集这些链接所在的页面。我们从这些链接中,选择其中一个作为下一层模板的示例地址,通过关联模板,可以将两个模板连接起来,实现页面的跳转。

在软件中模板的关联关系,与网页中链接跳转的关系相同,因此可以完整的采集数据。

关联方式如下:

①自动关联:软件会根据用户创建模板的情况,帮助用户自动关联。

②手动关联:用户可在链接抽取节点进行手动关联。

【关联模板】

二,如何判断模板关联是否正确

①在软件中模板的关联关系,与网页中链接跳转的关系相同。如模板一的示例地址为:http://news.ifeng.com/o/dynpage/64-/1/plist.shtml

【关联模板】

②通过模板一示例地址,点击模板一中任意一条链接,进入需要采集数据的页面,该页面链接即为模板二的示例地址。

【模板一地址】

③所以此时模板一中的链接抽取,需要关联模板二。

【模板二地址】

三,如何选择链接类型

链接类型可分为href和src两种。

  1. href

默认选项。适用于超链接、按钮、CSS文件。

  1. src

适用于图片/视频/音频/资源文件/JS文件等。

四,过滤方法

过滤方式一:智能过滤

智能过滤可以一键过滤出,链接地址规律相同的链接。适用于大多数情况,如过滤的不正确,可以使用方式三:地址/标题过滤。 操作方法如下:

①在链接抽取节点,按Ctrl+鼠标左键,在内置浏览器上点击所需获取的链接,点击“智能过滤”按钮。

②点击软件右上角“采集预览”按钮,查看是否过滤完全。

过滤方式二:定位过滤

定位过滤是通过内置浏览器定位,适用于所需链接都集中在一小片区域的情况。

操作方法如下:

①在链接抽取节点,按Ctrl在内置浏览器上点击(扩大选区按Shift),选中所需链接的区域,点击“确认选区”按钮。

②点击软件右上角“采集预览”按钮,查看是否过滤完全。

过滤方式三:地址/标题过滤

为了在抽取的链接中去除无关链接,有两种过滤方式,配置方式相同。

(1)地址过滤:通过url地址的规律,过滤无关链接。

(2)标题过滤:通过链接标题的规律,过滤无关链接。

① 地址(标题)过滤节点的配置内容

② 过滤串规则说明

© 著作权归作者所有

共有 人打赏支持
forespider
粉丝 1
博文 61
码字总数 59095
作品 0
天津
私信 提问
前嗅ForeSpider脚本教程:扩展对象(二)

今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的扩展对象:链接抽取类tmplLink,链接过滤类tmplFilter,数据抽取类tmplData,模板字段类tmplVal。具体内容如下: 一.链接抽取类tmplL...

forespider
昨天
0
0
前嗅ForeSpider脚本教程:脚本概述

本教程主要对前嗅ForeSpider脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下: 一.ForeSpider脚本结构 ForeSpid...

forespider
03/11
0
0
前嗅ForeSpider教程:创建模板

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板。主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下: 一,模板的概念 模板列表的层级相当于网页跳转的...

forespider
02/20
0
0
前嗅ForeSpider教程:采集预览

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行采集预览。主要内容包括:采集预览的使用方法,预览链接/数据抽取,和预览错误情况排查;具体内容如下: 一,采集预览的使用方法...

forespider
02/21
0
0
前嗅ForeSpider教程:采集58同城

以58同城·便当为例,通过社保医疗链接到文章列表,由列表进入文章页采集正文数据: 第一步:新建任务 ①点击左上角“加号”新建任务,如图1: 【图1】 ②在弹窗里填写采集地址,任务名称,如...

forespider
01/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

如果让你写一个消息队列,该如何进行架构设计?

面试题 如果让你写一个消息队列,该如何进行架构设计?说一下你的思路。 面试官心理分析 其实聊到这个问题,一般面试官要考察两块: 你有没有对某一个消息队列做过较为深入的原理的了解,或者...

李红欧巴
今天
4
0
错题

无知的小狼
今天
2
0
PowerShell因为在此系统中禁止执行脚本的解决方法

参考:window系统包管理工具--chocolatey 报错提示: & : 无法加载文件 C:\Users\liuzidong\AppData\Local\Temp\chocolatey\chocInstall\tools\chocolateyInstall.ps1,因为在此系统上禁止运...

近在咫尺远在天涯
今天
3
0
TP5 跨域请求处理

https://blog.csdn.net/a593706205/article/details/81774987 https://blog.csdn.net/wyk9916/article/details/82315700...

15834278076
今天
3
0
深入理解java虚拟机-Java内存区域与内存溢出异常

深入理解java虚拟机 Java内存区域与内存溢出异常 运行时数据区域 程序计数器 线程私有,内存小,是当前线程执行的字节码行号指示器,字节码解释器通过改变这个计数器的值来选取下一条需要执行...

须臾之余
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部