文档章节

前嗅ForeSpider教程:创建模板

forespider
 forespider
发布于 02/20 09:52
字数 1267
阅读 15
收藏 0

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板。主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下:

一,模板的概念

模板列表的层级相当于网页跳转的层级。模板一类似于网站首页,每个模板代表了同一层级的页面,通过适当的配置,可以采集全站数据。

正如网站是通过链接之间的跳转,来实现网站各层级页面的连接,ForeSpider也是通过模板中的链接抽取,来实现模板之间的关联。通过抽取网页中的全部链接,再进行精准过滤,就可以既全面又精确的获取所需的全部数据。

正如网站通过正文/数据页展示数据,ForeSpider也是通过模板中的数据抽取,来获取所需数据。

二,模板的配置方式

1.模板的创建

模板的创建,有如下三种情况:

①新建任务后:创建新的任务之后,选择页面需要抽取的内容,点击完成后,软件自动创建对应抽取内容的模板。

②自动创建后续模板:点击配置向导上方的“下一步”,会自动创建模板。

③手动创建模板:点击模板列表上方的添加按钮,创建模板。

2.抽取所需内容

根据内置浏览器显示的页面内容,选择本页面需要抽取的内容。

【选择页面抽取内容】

①抽取链接:需要抽取页面上的链接时,选择抽取链接以及具体的链接类型,会建立对应的链接抽取。(方式一:智能过滤/方式二:定位过滤/方式三:地址/标题过滤)

②抽取数据:需要抽取页面上的数据时,选择抽取数据,会建立对应的数据抽取。(>>如何选择表单)

例如:

需要采集新闻的正文数据,当前页面是新闻首页,汇集了新闻的链接,正文数据是通过点击新闻链接进入的,所以本页面需要抽取新闻链接。

软件预置了一些常见的链接页面场景,此时勾选链接列表,软件会自动建立一个链接抽取。

3.如何填写示例地址

(1)模板一的示例地址,自动默认为该任务的采集地址。

(2)其他模板的示例地址,自动默认为上一级模板抽取到的某个链接地址。

(3)如果默认的示例地址不符合需求,可以手动修改示例地址,方法如下:

①采集入口地址(模板一)的选择

一般选择目标网站的入口地址,比如首页。

②示例地址的选择

大多数情况下,采集地址只填写一个url地址。如果链接的页面结构和层级结构是一致的,能够套用同一套采集模板进行采集,可填写多个采集地址,中间用回车换行分隔。如果不一致,需要创建新的采集任务。

例1:采集整个淘宝网全部商品的信息,淘宝网首页就是入口地址。

例2:只采集“女装”类别的商品信息,“女装”首页就是入口地址。

例3:只采集某商品的评论信息,该商品的链接地址就是入口地址。

三,模板的高级选项

1.字符编码

默认自动识别。如果该页面未能自动识别发生乱码,需要自行选择字符编码。可以选择GBK或UTF-8。

2.文档类型

默认自动识别。可以选择采集xml文档。

  1. 网页类型

适用于一个模板配置大批量网站的情况(可导入上万个采集地址),选择类型后,可以自动过滤不属于该类型的网页,从而达到快速配置的目的。

网页类型包括:全部类型、导航页、列表页、(文本)内容页、详情页、附件、未知页。

  1. 主题过滤

自动识别网页的语义,并采集属于某些类别的数据,过滤掉不属于某些类别的数据。(针对自动分类器使用,如有需求请联系我们定制。)

  1. 未匹配处理模板 适用于一个模板配置大批量网站的情况,当有页面不符合匹配的类型被过滤掉后,可以在此选择一个针对未匹配页面的处理模板,进入其他处理流程。

© 著作权归作者所有

forespider
粉丝 5
博文 106
码字总数 110553
作品 0
天津
私信 提问
前嗅ForeSpider脚本教程:扩展对象(二)

今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的扩展对象:链接抽取类tmplLink,链接过滤类tmplFilter,数据抽取类tmplData,模板字段类tmplVal。具体内容如下: 一.链接抽取类tmplL...

forespider
03/22
6
0
前嗅教程:如何获取精准客源,提高销量

经常有人问嗅嗅,我是XX行业的,大数据能帮我做什么? • 可以给我带来客源吗? • 可以提高我的销量吗? • 可以增加我的利润吗? 今天嗅嗅就以生鲜供货为例,为大家讲一讲外卖平台那些事~...

forespider
04/23
32
0
前嗅ForeSpider脚本教程:脚本概述

本教程主要对前嗅ForeSpider脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下: 一.ForeSpider脚本结构 ForeSpid...

forespider
03/11
8
0
前嗅ForeSpider脚本教程:扩展对象(一)

今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的标准对象:表单操作类schema,采集管理类extractor,采集频道类channel,以及频道模板类tmplTmpl。具体内容如下: 一.表单操作类schem...

forespider
03/21
5
0
最强黑科技!听说TA是大数据时代的Spider Man?

"With great power comes great responsibility" 近期,迪士尼和索尼对于蜘蛛侠版权问题可是打的火热朝天,虽然索尼和漫威都曾口头说过双方谈判破裂,蜘蛛侠将离开MCU。 但根据最新消息表明,...

forespider
09/02
17
0

没有更多内容

加载失败,请刷新页面

加载更多

框架和库的区别

框架和库的区别 框架:是一套完整的解决方案;对项目的侵入性较大,项目如果需要更换框架,则需要重新架构整个项目。 node 中的 express; 库(插件):提供某一个小功能,对项目的侵入性较小...

庭前云落
刚刚
0
0
基于 Dawn 进行多工程管理

1. 简述 当一个项目中子工程较多时,就会面临「单仓库(Monorepo)」还是「多仓库(Multirepo)」管理的问题。当然两个方式各有优缺点,而我们选择多工程单 Repo 时,能够带来一些管理上的简...

阿里云官方博客
刚刚
0
0
Joomla 4具有可自定义的HTML电子邮件模板

Joomla 4大约每个月都会发布一个Alpha版本。上个月,我们得到了一个新的管理模板。 Joomla 4的最新版本是Alpha 12。 该版本的主要新特性是可定制的电子邮件模板。您将能够控制从您的网站发送...

六艺网络专注于Joomla
4分钟前
0
0
Idea配置

配置文件idea64.exe.vmoptions -Xms128m, 16 G 内存的机器可尝试设置为 -Xms512m (设置初始的内存数,增加该值可以提高 Java 程序的启动速度。 ) -Xmx750m, 16 G 内存的机器可尝试设置为 ...

行者终成事
6分钟前
1
0
大小仅1MB!超轻量级的人脸识别模型火爆Github

项目地址:https://github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB 近日,用户Linzaer在Github上开源了一款适用于边缘计算设备、移动端设备以及 PC 的超轻量级通用人脸检测...

编程资源库
7分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部