文档章节

前嗅ForeSpider脚本教程:脚本概述

forespider
 forespider
发布于 03/11 10:44
字数 1131
阅读 6
收藏 0

本教程主要对前嗅ForeSpider脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下:

一.ForeSpider脚本结构

ForeSpider脚本是前嗅自主研发的爬虫脚本语言,风格类似于JavaScript。ForeSpider脚本语言属于轻量级的脚本语言,为支持高级数据采集的规则补充,它支持对象操作,函数,数组及对象定义,借助内置的采集及系统对象几乎能够完成所有的采集任务,以及灵活的采集控制,同时让采集引擎有更强的灵活性和扩展性。

1.频道

包括“频道脚本”。

2.模板

(1)模板配置

包括“模板脚本”。

(2)链接部分

包括“链接抽取脚本”、“链接过滤脚本”。

(3)数据部分

包括“数据抽取脚本”。

(4)字段部分

包括“字段取值脚本”、“字段处理脚本”。

二.脚本与可视化配置的关系

1.各部分配置可以完全使用脚本编写,不进行可视化操作;

2.同一步骤既进行了可视化操作的配置,又编写了脚本,则由脚本接管,可视化配置失效;

3.各步骤可以一部分使用脚本编写,一部分使用可视化操作,不重复的配置都有效,重复的配置以脚本优先接管。

三.各节点脚本之间的关系

1.上一操作层级的脚本配置区域可以编写涵盖其下面所有操作层级功能的脚本;

2.如果各层级之间的脚本有重复,以其中高层级步骤的脚本优先生效;

3.可以将脚本分散于各操作层级编写,也可以直接在最高操作层级(频道脚本)编写。

四.脚本编辑区介绍

第一级:频道配置-脚本配置

在“频道配置”时,通过使用系统内置的脚本语言对频道进行配置。

①选中该频道;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,即可创建频道脚本。

【频道脚本】

第二级:模板脚本

模板脚本可以编写整个模板配置的脚本。

①选中该模板;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,即可创建模板脚本。

【模板脚本】

第三级:链接/数据抽取脚本

1.链接文本

链接脚本可以编写整个链接抽取的脚本。

①选中该链接抽取;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,即可创建链接脚本。

【链接脚本】

2.数据抽取脚本

数据抽取脚本可以编写整个数据抽取的脚本。

①选中该数据抽取;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,选择“数据抽取脚本/数据过滤脚本”按钮,即可生成相应的代码区。

【选择数据抽取脚本】

【数据抽取脚本】

第四级:链接过滤、字段取值/清洗脚本

1.链接过滤脚本

链接过滤脚本可以编写链接地址或链接标题过滤的脚本。

①选中该链接抽取;

②勾选“地址过滤/标题过滤”复选框,并选择“脚本过滤”;

③可自动生成相应的“地址过滤/标题脚本"区。

【地址过滤脚本】

【标题过滤脚本】

2.字段取值脚本

字段取值脚本可以编写该字段取值的脚本。

①选中该字段;

②在“采集内容”处,勾选“高级取值->脚本过滤”;

③可自动生成相应的字段取值脚本区。

【字段取值脚本】

3.字段处理脚本

字段处理脚本可以编写该字段数据处理的脚本。

①选中该字段;

②在“数据清洗”处,勾选“脚本处理”;

③可自动生成相应的字段处理脚本区。

【选择字段处理脚本】

【字段处理脚本】

© 著作权归作者所有

forespider
粉丝 5
博文 104
码字总数 108783
作品 0
天津
私信 提问
前嗅ForeSpider脚本教程:运算符与运算顺序

今天小编为大家介绍的是:前嗅ForeSpider脚本中的运算符和运算顺序,具体内容有:脚本支持的运算符、运算顺序、运算级别以及默认类型转换顺序。 一.ForeSpider脚本支持的运算符 1.一般运算符...

forespider
03/13
7
0
前嗅ForeSpider脚本教程-频道脚本:脚本采集数据

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中频道脚本,脚本采集数据的实战教程。具体内容如下: 一.场景 此处为高手操作,配置的频道脚本接管所有采集流程,无需再做任何配置。...

forespider
04/08
6
0
前嗅ForeSpider脚本教程-链接过滤脚本

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接过滤脚本,应用场景,地址/标题过滤。具体内容如下: 一.应用场景 当可视化抽取到的链接包含不想要的链接地址时,需要进行过滤。...

forespider
04/15
5
0
前嗅ForeSpider脚本教程:变量申明及引用

今天,小编为大家介绍前嗅ForeSpider脚本中的语法规则——变量申明及引用。在此之前先为大家介绍一下,语法规则中的注释和标准常量,具体内容如下: 一 .注释 ForeSpider脚本的注释类似于C++...

forespider
03/08
5
0
前嗅ForeSpider脚本教程:扩展对象(二)

今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的扩展对象:链接抽取类tmplLink,链接过滤类tmplFilter,数据抽取类tmplData,模板字段类tmplVal。具体内容如下: 一.链接抽取类tmplL...

forespider
03/22
6
0

没有更多内容

加载失败,请刷新页面

加载更多

Python 开发植物大战僵尸游戏

作者:楷楷 链接:https://segmentfault.com/a/1190000019418065 开发思路 完整项目地址: https://github.com/371854496/pygame 更多好玩有趣的python,尽在公众号「Python专栏」,后台回复...

上海小胖
58分钟前
5
0
JVM优化之逃逸分析与分配消除

要了解逃逸分析背后的基本原理,我们先来看下这段有问题的C代码——当然这个是没法用Java来写的: 这段C代码在栈上创建了一个int类型的变量,然后把它的指针作为函数的返回值返回了。这样做是...

onedotdot
今天
3
0
最简单的获取相机拍照的图片

  import android.content.Intent;import android.graphics.Bitmap;import android.os.Bundle;import android.os.Environment;import android.provider.MediaStore;import andr......

MrLins
今天
6
0
说好不哭!数据可视化深度干货,前端开发下一个涨薪点在这里~

随着互联网在各行各业的影响不断深入,数据规模越来越大,各企业也越来越重视数据的价值。作为一家专业的数据智能公司,个推从消息推送服务起家,经过多年的持续耕耘,积累沉淀了海量数据,在...

个推
今天
12
0
第三方支付-返回与回调注意事项

不管是支付宝,微信,还是其它第三方支付,第四方支付,支付机构服务商只要涉及到钱的交易都要进行如下校验,全部成功了才视为成功订单 1.http请求是否成功 2.校验商户号 3.校验订单号及状态...

Shingfi
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部