文档章节

前嗅ForeSpider数据采集软件使用教程

forespider
 forespider
发布于 2017/07/10 14:56
字数 1504
阅读 437
收藏 0

我们想要从网上获取自己想要的数据,通常有几种常见的方式,方式一,手动复制粘贴,适合收集少量数据;二,自己编写爬虫脚本,获取自己想要得到的数据,能收集大量数据,但需要自己有编码能力;三,使用数据采集软件,既不需要自己编写爬虫脚本,又能收集自己想要的数据。

作为一个日常工作中需要采集大量数据来分析用户需求与行为的人,又不会编写脚本,一个好用的数据采集软件是工作中必不可少的工具,前嗅的ForeSpider数据采集软件,可视化的操作界面,很高级,功能全面,我需要采集的网站都能满足。下面我给大家分享一下最近的使用心得,希望能帮助到有需要的人。

我采集的网站是大众点评,想要得到50页内所有医院名称,该医院评论总数,医院总体星级,各项评分,医院评论的用户名,评论内容,评论时间,用户点评星级,获赞数量和回应数量。

 

1、

首先我们先新建一个频道,我给它命名为大众点评,然后在频道配置里输入我们想要爬取数据的网址,需要在频道配置处输入想要得到数据的网址,大众点评需要开启cookie,“基本配置”-“频道属性”里能开启cookie。

 

现在默认模板(1)就是我们要的网站页面,鼠标放在医院标题处如图,从左下角能看到医院的网址链接。

现在点一下右上角的采集预览,我们能得到整个页面的所有网页链接,下拉滚动条到这个位置就会发现跟上图相同格式的链接,这就是我们需要的所有医院的链接。

我们用不到的需要过滤一下,可以通过地址过滤和标题过滤方法筛选。

 

点击软件右上角模板抽取配置里面的链接抽取,里面有地址过滤和标题过滤两个选项,点击地址过滤,软件右下角如图:

过滤规则选择包含,过滤串内输入想要得到的医院链接,后面这串数字我们用“\d”表示,用“\e”表示结束,例如https://www.dianping.com/shop/\d\e,这样就能采集网页内所有这种格式的网页链接。

2、

当我们想要采集的网页下面有翻页的链接,就必须配置翻页。除了在右上角默认模板处抽取我们想要的得到的医院链接外,还要再新建一个链接抽取,抽取页面翻页的地址。

 

我们继续从采集预览处得到翻页的链接,如下图:

 

过滤规则选择包含,通过观察发现几个链接的相同点,输入到过滤串里就能得到想要的翻页链接了。

 

3、

下面我们随便点进一个医院主页内,复制链接建立下一层级模板,

在默认模板(2)的示例地址内输入医院主页的链接,得到模板二

因为我们需要采集该医院所有用户评论,所以我们找到下面的“更多点评”,通过刚刚地址过滤的方法,过滤出更多点评的链接,并建立模板(3),示例地址输入刚刚过滤的得到的更多点评的网址。

 

注:点击链接抽取,看左下角关联模板处,一定要关联到下一层级的模板,如果是翻页的链接抽取,要关联自身模板,否则会数据采集失败。我失败了好多次都没发现原因,就是因为在这里。大家谨记……

模板配置完了,我们下一步是建立表单,如下图红色字体我们能从模板二采集到,蓝色字体我们能从模板三采集到,所以我们需要建立两个表单

 

点击表单配置,新建一个表单,添加一个网页主键如图,一定要勾选索引字段,键值唯一,主键字段三个选项,取值类型选择网页主键点击确定。

 

然后添加下一个字段如标题“title”

取值类型选择“选区内全部文本”,变量类型选择“string”,选择合适的字符长度点击确定。

 

这是我建立的两个表单的所有字段,表单名称分别为“大众点评1”、“大众点评2”,建立好以后点击保存即可。点开模板配置,每一个模板对应相应的表单,右键模板二“添加数据抽取”,表单名称选择“大众点评1”。

 

同样在模板三处再添加另外一个数据抽取表单,添加好后如下图所示:

 

例如单击“title”,然后按住ctrl键同时鼠标左键点击对应标题,内容过多的话按住shift可以调整内容大小,选好后点击保存即可。

全部选取完后点击左上角的文件,然后全部保存,就完成啦!

下一步点击数据,连接数据库,直接点击打开即可,然后再次点击数据,选择数据表,选择刚刚新建两个数据表后点击创建表,创建好后勾选并确定,就可以进行数据采集了(如果表单有问题需要更改,改好后需要重新创建表单),速度慢可以点击设置里面的线程设置,设置多线程(设置太多可能会被网站封ip)

 

今天的分享就就到这里了,希望能帮助到有需要的人,祝大家使用愉快!

 

© 著作权归作者所有

forespider
粉丝 4
博文 103
码字总数 105800
作品 0
天津
私信 提问
前嗅教程:如何获取精准客源,提高销量

经常有人问嗅嗅,我是XX行业的,大数据能帮我做什么? • 可以给我带来客源吗? • 可以提高我的销量吗? • 可以增加我的利润吗? 今天嗅嗅就以生鲜供货为例,为大家讲一讲外卖平台那些事~...

forespider
04/23
25
0
前嗅ForeSpider教程:创建模板

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板。主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下: 一,模板的概念 模板列表的层级相当于网页跳转的...

forespider
02/20
14
0
前嗅ForeSpider脚本教程:标准对象(二)

今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的标准对象:采集文档类grabDoc,采集记录集类result,JavaScript操作类jScript、KeyForm操作类KeyForm,html标签属性类domAttr以及key...

forespider
03/20
4
0
前嗅ForeSpider脚本教程:扩展对象(二)

今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的扩展对象:链接抽取类tmplLink,链接过滤类tmplFilter,数据抽取类tmplData,模板字段类tmplVal。具体内容如下: 一.链接抽取类tmplL...

forespider
03/22
6
0
五一出行,定哪家酒店?大数据告诉你,性价比最高的酒店是它

“五一”假期就要到啦,春夏交接,气候适宜,最是出游好时节,很多人都在为小长假出游做准备。为避免出游遇到突发状况,22日,消费者网与北京阳光消费大数据研究院遍联合发布了《在线旅游消费...

forespider
04/28
7
1

没有更多内容

加载失败,请刷新页面

加载更多

rime设置为默认简体

转载 https://github.com/ModerRAS/ModerRAS.github.io/blob/master/_posts/2018-11-07-rime%E8%AE%BE%E7%BD%AE%E4%B8%BA%E9%BB%98%E8%AE%A4%E7%AE%80%E4%BD%93.md 写在开始 我的Arch Linux上......

zhenruyan
今天
5
0
简述TCP的流量控制与拥塞控制

1. TCP流量控制 流量控制就是让发送方的发送速率不要太快,要让接收方来的及接收。 原理是通过确认报文中窗口字段来控制发送方的发送速率,发送方的发送窗口大小不能超过接收方给出窗口大小。...

鏡花水月
今天
10
0
OSChina 周日乱弹 —— 别问,问就是没空

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @tom_tdhzz :#今日歌曲推荐# 分享容祖儿/彭羚的单曲《心淡》: 《心淡》- 容祖儿/彭羚 手机党少年们想听歌,请使劲儿戳(这里) @wqp0010 :周...

小小编辑
今天
1K
11
golang微服务框架go-micro 入门笔记2.1 micro工具之micro api

micro api micro 功能非常强大,本文将详细阐述micro api 命令行的功能 重要的事情说3次 本文全部代码https://idea.techidea8.com/open/idea.shtml?id=6 本文全部代码https://idea.techidea8....

非正式解决方案
今天
5
0
Spring Context 你真的懂了吗

今天介绍一下大家常见的一个单词 context 应该怎么去理解,正确的理解它有助于我们学习 spring 以及计算机系统中的其他知识。 1. context 是什么 我们经常在编程中见到 context 这个单词,当...

Java知其所以然
昨天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部