文档章节

前嗅ForeSpider教程:如何创建新任务

forespider
 forespider
发布于 02/15 13:38
字数 1188
阅读 3
收藏 2

一,创建新任务操作步骤:

1.添加新任务

点击任务列表右侧,新建任务文件。

【添加任务】

此时会出现一个弹框,可以在弹框中填写采集地址,修改任务名称,以及选择是否需要登录/关键词采集。

【新建任务】

2.填写采集地址

在弹窗里填写采集地址和任务名称。

【填写采集地址】

采集地址一般选择目标网站的入口地址,比如首页。

大多数情况下,采集地址只填写一个url地址。如果链接的页面结构和层级结构是一致的,能够套用同一套采集模板进行采集,可填写多个采集地址,中间用回车换行分隔。如果不一致,需要创建新的采集任务。

例1:采集整个淘宝网全部商品的信息,淘宝网首页就是入口地址。

例2:只采集“女装”类别的商品信息,“女装”首页就是入口地址。

例3:只采集某商品的评论信息,该商品的链接地址就是入口地址。

3.选择当前页面所需内容

创建新的任务之后,点击“下一步”,选择页面需要抽取内容。

①抽取链接:需要抽取页面上的链接时,选择抽取链接以及具体的链接类型,会建立对应的链接抽取。(方式一:智能过滤/方式二:定位过滤/方式三:地址/标题过滤)

②抽取数据:需要抽取页面上的数据时,选择抽取数据,会建立对应的数据抽取。

例如: 需要采集新闻的正文数据,当前页面是新闻首页,汇集了新闻的链接,正文数据是通过点击新闻链接进入的,所以本页面需要抽取新闻链接。 软件预置了一些常见的链接页面场景,此时勾选链接列表,软件会自动建立一个链接抽取。

【选择页面抽取内容】

点击“完成”,软件自动创建对应的抽取内容的模板。

二,创建新任务注意事项

1.如何选择采集类型

采集类型分为默认(html)和本地文件目录两种。

(1)默认(html):采集网站上的各种信息

(2)本地文件目录:采集本地文件目录信息。

【设置采集类型】

2.什么情况下选择浏览器采集

在页面均由JS生成时,采集效果不理想的情况下,可以尝试使用“浏览器采集”,该方式近乎于在浏览器上点击,会减慢采集速度,但是对JS语法的支持更加全面。

浏览器采集:通过浏览器的方式采集数据。

适用情况:由大量JS生成的,采集难度大的网页。对JS语法的支持更加全面,近乎于在浏览器上点击,但采集速度慢、效率低。

【设置浏览器采集】

3.Cookie的使用方法

① 配置Cookie

(1)填写Cookie:

正常情况下(除JS生成的Cookie外),软件会自动获取Cookie。 当软件无法获取到网页的Cookie时,需要参考下文从浏览器寻找Cookie。 (2)禁用Cookie的情况:

对于不需要Cookie的网站,选择“禁用Cookie”,可加快采集速度。

【Cookie配置】

② 如何通过浏览器寻找cookie

在获取不到登录状态的时候,可以通过浏览器的F12开发者工具进行手动的获取Cookie。首先先用浏览器打开网页,点击F12打开开发者工具,如图所示。

接下来点击network网络任务列表。

在浏览器上输入用户名密码,点击登录

可以在network里面看到出现很多条任务,从中就可以找到关于登录的cookie。

③ 多账号登录的Cookie处理

当需要登录多个账号来抓取同一个网页时,可以在采集列表中设置多个采集任务,采集地址填写一个地址,填写不同的Cookie信息即可。

4.什么情况下禁用JavaScript

对于有些把JavaScript只用于美观效果的网页,关闭JavaScript不影响采集数据时,可以加快采集速度。

【JavaScript配置】

© 著作权归作者所有

forespider
粉丝 5
博文 104
码字总数 108783
作品 0
天津
私信 提问
前嗅教程:如何获取精准客源,提高销量

经常有人问嗅嗅,我是XX行业的,大数据能帮我做什么? • 可以给我带来客源吗? • 可以提高我的销量吗? • 可以增加我的利润吗? 今天嗅嗅就以生鲜供货为例,为大家讲一讲外卖平台那些事~...

forespider
04/23
29
0
最强黑科技!听说TA是大数据时代的Spider Man?

"With great power comes great responsibility" 近期,迪士尼和索尼对于蜘蛛侠版权问题可是打的火热朝天,虽然索尼和漫威都曾口头说过双方谈判破裂,蜘蛛侠将离开MCU。 但根据最新消息表明,...

forespider
09/02
16
0
前嗅ForeSpider脚本教程:标准对象(一)

今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的标准对象:爬虫链接类url,urltext采集的所有状态及属性类,html标签节点类domItem和(html)dom类dom。具体内容如下: 一.爬虫链接类...

forespider
03/19
8
0
前嗅ForeSpider教程:抽取数据

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中抽取数据。主要内容包括:如何选择表单,如何采集列表/表格数据两大部分。具体内容如下: 一,如何选择表单 在ForeSpider爬虫中,表单...

forespider
02/25
80
0
前嗅ForeSpider脚本教程:扩展对象(二)

今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的扩展对象:链接抽取类tmplLink,链接过滤类tmplFilter,数据抽取类tmplData,模板字段类tmplVal。具体内容如下: 一.链接抽取类tmplL...

forespider
03/22
6
0

没有更多内容

加载失败,请刷新页面

加载更多

使用CSS自定义属性构建骨架屏

写在前面 几天前看到薄荷前端团队分享的《前端骨架屏方案小结》,突然回想起一年前看到的max bock写的《Building Skeleton Screens with CSS Custom Properties》,翻译整理写下出此文,分享...

前端老手
昨天
9
0
Docker常用命令小记

除了基本的<font color="blue">docker pull</font>、<font color="blue">docker image</font>、<font color="blue">docker ps</font>,还有一些命令及参数也很重要,在此记录下来避免遗忘。 ......

程序员欣宸
昨天
9
0
MAT使用-jvm内存溢出问题分析定位

1.MAT简介: MAT 全称 Eclipse Memory Analysis Tools 是一个分析 Java堆数据的专业工具,可以计算出内存中对象的实例数量、占用空间大小、引用关系等,看看是谁阻止了垃圾收集器的回收工作,...

xiaomin0322
昨天
5
0
内网和外网之间的通信(端口映射原理)

首先解释一下“内网”与“外网”的概念: 内网:即所说的局域网,比如学校的局域网,局域网内每台计算机的IP地址在本局域网内具有互异性,是不可重复的。但两个局域网内的内网IP可以有相同的...

Jack088
昨天
6
0
3.深入jvm内核-原理、诊断与优化-4. GC算法和种类

一、GC算法和种类 GC的概念 GC算法 引用计数法 标记清除 标记压缩 复制算法 可触及性 Stop-The-World GC的对象是堆空间和永久区 引用计数法 老牌垃圾回收算法 通过引用计算来回收垃圾 使用者...

hexiaoming123
昨天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部