文档章节

前嗅ForeSpider脚本教程:频道脚本使用场景及配置关键词搜索

forespider
 forespider
发布于 04/04 09:48
字数 649
阅读 7
收藏 0

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中频道脚本的应用场景以及脚本配置关键词搜索的实战教程。具体内容如下:

一.频道脚本使用场景

当需要手动创建采集源列表,或者完全使用脚本采集数据时,在“频道脚本”处,你可能用到的类为extractor 、result。

你可以定义类的对象来使用其成员方法,也可以使用EXTRACT、RESULT两个全局对象。

关于这两个类的详细说明以及该场景的更多示例,可以点击“教程->脚本教程->脚本示例->频道脚本”来查看相关内容。

二.脚本配置关键词搜索

1.关键词不含验证码

场景:当一类链接中只需要替换一部分字符串,即可得到目标链接。则可以将这部分字符串作为关键词,添加频道脚本,达到链接抽取的目的。 示例:暂无。

2.关键词含验证码

场景:当通过可视化方式不能获取验证码刷新事件时,需要手动寻找验证码刷新请求并填写至相应输入框,与此同时,添加验证码参数至参数列表。 示例:采集京东店铺工商信息。

使用开发者工具(以搜狗浏览器为例,在浏览器中按F12打开)抓包,在目标网页右键点击“审查元素”,选择“NetWork”,先清空所有缓存信息,点击验证码图片,查找验证码刷新请求:

https://mall.jd.com/sys/vc/createVerifyCode.html?random=0.10473700880101844 ”。

可以发现每次刷新验证码,请求链接中random参数的值都不同,则需要查找random生成的js事件。在网页源码中找到以下代码。

填写js刷新事件于文本框内,值得注意的是,只需修改this.src的值即可。 脚本实例:

var key = EXTRACT.GetSearch(this);

var form = key.Search();

url u;

var postData;

while(form){

var ocrCode = form.verifyCode;

u.urlname = "https://mall.jd.com/"+"showLicence-"+form.text+".html";

u.title = ocrCode;

u.entryid = this.id;

u.tmplid = 1;

postData = "verifyCode="+ocrCode;

var d = EXTRACT.OpenDoc(this,u.urlname,postData,0);

if(d){

this.Run(d,1);

EXTRACT.CloseDoc(d);

}

form = key.Search();

}

key.End();

© 著作权归作者所有

forespider
粉丝 5
博文 104
码字总数 108783
作品 0
天津
私信 提问
前嗅ForeSpider脚本教程-链接过滤脚本

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接过滤脚本,应用场景,地址/标题过滤。具体内容如下: 一.应用场景 当可视化抽取到的链接包含不想要的链接地址时,需要进行过滤。...

forespider
04/15
5
0
前嗅ForeSpider脚本教程-频道脚本:脚本采集数据

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中频道脚本,脚本采集数据的实战教程。具体内容如下: 一.场景 此处为高手操作,配置的频道脚本接管所有采集流程,无需再做任何配置。...

forespider
04/08
6
0
前嗅ForeSpider脚本教程-数据抽取脚本实战教程

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-数据抽取脚本实战教程的,应用场景,数据在源码的html标签里写脚本。具体内容如下: 一.应用场景 当所需要的数据字段大部分需要配置脚...

forespider
04/17
4
0
前嗅ForeSpider脚本教程:脚本概述

本教程主要对前嗅ForeSpider脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下: 一.ForeSpider脚本结构 ForeSpid...

forespider
03/11
6
0
前嗅ForeSpider脚本教程:频道脚本

频道脚本是频道配置中的脚本, 如果配置了频道脚本,该频道的所有采集流程将被配置的脚本所接管。 一.可用全局对象(只读) EXTRACT:当前采集引擎[ 对象类型: extractor ] DATADB:当前连接的...

forespider
03/25
3
0

没有更多内容

加载失败,请刷新页面

加载更多

CSS盒子模型

一、什么叫框模型 页面元素皆为框(盒子) 定义了元素框处理元素内容,内边距,外边距以及边框的计算方式 二、外边距 围绕在元素边框外的空白距离(元素与元素之间的距离) 语法:margin,定...

wytao1995
今天
4
0
Replugin借助“UI进程”来快速释放Dex

public static boolean preload(PluginInfo pi) { if (pi == null) { return false; } // 借助“UI进程”来快速释放Dex(见PluginFastInstallProviderProxy的说明) return PluginFastInsta......

Gemini-Lin
今天
4
0
Hibernate 5 的模块/包(modules/artifacts)

Hibernate 的功能被拆分成一系列的模块/包(modules/artifacts),其目的是为了对依赖进行独立(模块化)。 模块名称 说明 hibernate-core 这个是 Hibernate 的主要(main (core))模块。定义...

honeymoose
今天
4
0
精华帖

第一章 jQuery简介 jQuery是一个JavaScript库 jQuery具备简洁的语法和跨平台的兼容性 简化了JavaScript的操作。 在页面中引入jQuery jQuery是一个JavaScript脚本库,不需要特别的安装,只需要...

流川偑
今天
7
0
语音对话英语翻译在线翻译成中文哪个方法好用

想要进行将中文翻译成英文,或者将英文翻译成中文的操作,其实有一个非常简单的工具就能够帮助完成将语音进行翻译转换的软件。 在应用市场或者百度手机助手等各大应用渠道里面就能够找到一款...

401恶户
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部