文档章节

前嗅ForeSpider数据采集软件使用教程

forespider
 forespider
发布于 2017/07/10 14:56
字数 1504
阅读 171
收藏 0
点赞 0
评论 0

我们想要从网上获取自己想要的数据,通常有几种常见的方式,方式一,手动复制粘贴,适合收集少量数据;二,自己编写爬虫脚本,获取自己想要得到的数据,能收集大量数据,但需要自己有编码能力;三,使用数据采集软件,既不需要自己编写爬虫脚本,又能收集自己想要的数据。

作为一个日常工作中需要采集大量数据来分析用户需求与行为的人,又不会编写脚本,一个好用的数据采集软件是工作中必不可少的工具,前嗅的ForeSpider数据采集软件,可视化的操作界面,很高级,功能全面,我需要采集的网站都能满足。下面我给大家分享一下最近的使用心得,希望能帮助到有需要的人。

我采集的网站是大众点评,想要得到50页内所有医院名称,该医院评论总数,医院总体星级,各项评分,医院评论的用户名,评论内容,评论时间,用户点评星级,获赞数量和回应数量。

 

1、

首先我们先新建一个频道,我给它命名为大众点评,然后在频道配置里输入我们想要爬取数据的网址,需要在频道配置处输入想要得到数据的网址,大众点评需要开启cookie,“基本配置”-“频道属性”里能开启cookie。

 

现在默认模板(1)就是我们要的网站页面,鼠标放在医院标题处如图,从左下角能看到医院的网址链接。

现在点一下右上角的采集预览,我们能得到整个页面的所有网页链接,下拉滚动条到这个位置就会发现跟上图相同格式的链接,这就是我们需要的所有医院的链接。

我们用不到的需要过滤一下,可以通过地址过滤和标题过滤方法筛选。

 

点击软件右上角模板抽取配置里面的链接抽取,里面有地址过滤和标题过滤两个选项,点击地址过滤,软件右下角如图:

过滤规则选择包含,过滤串内输入想要得到的医院链接,后面这串数字我们用“\d”表示,用“\e”表示结束,例如https://www.dianping.com/shop/\d\e,这样就能采集网页内所有这种格式的网页链接。

2、

当我们想要采集的网页下面有翻页的链接,就必须配置翻页。除了在右上角默认模板处抽取我们想要的得到的医院链接外,还要再新建一个链接抽取,抽取页面翻页的地址。

 

我们继续从采集预览处得到翻页的链接,如下图:

 

过滤规则选择包含,通过观察发现几个链接的相同点,输入到过滤串里就能得到想要的翻页链接了。

 

3、

下面我们随便点进一个医院主页内,复制链接建立下一层级模板,

在默认模板(2)的示例地址内输入医院主页的链接,得到模板二

因为我们需要采集该医院所有用户评论,所以我们找到下面的“更多点评”,通过刚刚地址过滤的方法,过滤出更多点评的链接,并建立模板(3),示例地址输入刚刚过滤的得到的更多点评的网址。

 

注:点击链接抽取,看左下角关联模板处,一定要关联到下一层级的模板,如果是翻页的链接抽取,要关联自身模板,否则会数据采集失败。我失败了好多次都没发现原因,就是因为在这里。大家谨记……

模板配置完了,我们下一步是建立表单,如下图红色字体我们能从模板二采集到,蓝色字体我们能从模板三采集到,所以我们需要建立两个表单

 

点击表单配置,新建一个表单,添加一个网页主键如图,一定要勾选索引字段,键值唯一,主键字段三个选项,取值类型选择网页主键点击确定。

 

然后添加下一个字段如标题“title”

取值类型选择“选区内全部文本”,变量类型选择“string”,选择合适的字符长度点击确定。

 

这是我建立的两个表单的所有字段,表单名称分别为“大众点评1”、“大众点评2”,建立好以后点击保存即可。点开模板配置,每一个模板对应相应的表单,右键模板二“添加数据抽取”,表单名称选择“大众点评1”。

 

同样在模板三处再添加另外一个数据抽取表单,添加好后如下图所示:

 

例如单击“title”,然后按住ctrl键同时鼠标左键点击对应标题,内容过多的话按住shift可以调整内容大小,选好后点击保存即可。

全部选取完后点击左上角的文件,然后全部保存,就完成啦!

下一步点击数据,连接数据库,直接点击打开即可,然后再次点击数据,选择数据表,选择刚刚新建两个数据表后点击创建表,创建好后勾选并确定,就可以进行数据采集了(如果表单有问题需要更改,改好后需要重新创建表单),速度慢可以点击设置里面的线程设置,设置多线程(设置太多可能会被网站封ip)

 

今天的分享就就到这里了,希望能帮助到有需要的人,祝大家使用愉快!

 

© 著作权归作者所有

共有 人打赏支持
forespider
粉丝 1
博文 15
码字总数 17015
作品 0
天津
“大数据应用场景”之隔壁老王(连载四)

老王上周预测了辣条的销量之后,马上就吩咐了工厂工人,开始制作各种形状的辣条了,什么条状的,块状的,片状等等等。可是等到辣条生产出来之后,是要卖的呀,所以怎么定价又成了老王的一个难...

forespider
02/05
0
0
Scrapy学习实例(二)采集无限滚动页面

上一篇写的是采集虎嗅网首页的新闻数据,有朋友对我说,采集多页试试看。后来研究下,虎嗅网首页是POST加载,中携带参数,所以只需要带上一个循环就好了。这是我最初的想法,先让我们看看Scr...

崔斯特
2017/12/03
0
0
ForeSpider教程之如何爬取位置不固定的图片

众所周知,对于新闻网站来说,图片位置是无法固定的,所以想要爬取到这些位置不固定的图片,需要一定的技术手段。 以某网站为例,任务入口地址为:http://www.chengdu.cn/ 一、对首页进行链接...

forespider
05/15
0
0
第二届世界智能大会,看大咖眼中的智能时代

本周周二,即5月15日,第二届世界智能大会天津正式召开,本届世界智能大会将以“智能时代:新进展、新趋势、新举措”为主题,坚持“高起点、入主流、国际化、有特色”目标,持续打造智能科技...

forespider
05/22
0
0
python开发大全、系列文章、精品教程

全栈工程师开发手册 (作者:栾鹏) python教程全解 python基础教程 python基础系列教程——Python的安装与测试:python解释器、PyDev编辑器、pycharm编译器 python基础系列教程——Python库...

luanpeng825485697
2017/10/25
0
0
【01】基础:集搜客爬虫软件安装

前言 漫漫网页数据大海洋,有一种数据搬运工的生物存在,他可能是数据分析师、也可能是爬虫工程师、也可能是业务员...等等。 作为一名程序员,接下来的一系列教程不谈编程,来教大家学开车。...

fullerhua
2016/09/08
29
0
DevOps到底是什么鬼?DevOps介绍及工具推荐。

QQ用得起来越少了,现在就加入300+技术微信群,下方公众号回复"微信群"即可加入。 什么是DevOps DevOps是Development和Operations的组合,是一组过程、方法与系统的统称,用于促进开发(应用...

架构之路
2017/12/11
0
0
《连载 | 物联网框架ServerSuperIO教程》- 17.集成Golden实时数据库,高并发保存测点数据。附:3.4 发布与版本更新说明。

1.C#跨平台物联网通讯框架ServerSuperIO(SSIO)介绍 《连载 | 物联网框架ServerSuperIO教程》1.4种通讯模式机制。 《连载 | 物联网框架ServerSuperIO教程》2.服务实例的配置参数说明 《连载...

唯笑志在
2017/03/28
0
0
【03】基础:同种网页结构套用采集规则

请先安装爬虫软件。爬虫软件安装 经过上个教程小试牛刀之后就可以尝到获得数据的喜悦了。 回顾一下,上个教程主要了解了MS谋数台的工作职责-定义采集规则,测试规则无误之后点击MS谋数台右上...

fullerhua
2016/09/19
20
0
DEDE采集功能的使用 DEDE采集规则的导入与导出的方法

我们都知道,DEDECMS开发的默认系统后台自带有采集功能,本篇教程演示教你如何使用DEDE采集功能. 采集的定义: 回到重点:DEDE采集规则的导入方法  Dede教程-598080707.NET 1.登录DEDE后台...

asqq8
前天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Android 复制和粘贴功能

做了一回搬运工,原文地址:https://blog.csdn.net/kennethyo/article/details/76602765 Android 复制和粘贴功能,需要调用系统服务ClipboardManager来实现。 ClipboardManager mClipboardM...

她叫我小渝
27分钟前
0
0
拦截SQLSERVER的SSL加密通道替换传输过程中的用户名密码实现运维审计(一)

工作准备 •一台SQLSERVER 2005/SQLSERVER 2008服务 •SQLSERVER jdbc驱动程序 •Java开发环境eclipse + jdk1.8 •java反编译工具JD-Core 反编译JDBC分析SQLSERVER客户端与服务器通信原理 SQ...

紅顏為君笑
44分钟前
4
0
jQuery零基础入门——(六)修改DOM结构

《jQuery零基础入门》系列博文是在廖雪峰老师的博文基础上,可能补充了个人的理解和日常遇到的点,用我的理解表述出来,主干出处来自廖雪峰老师的技术分享。 在《零基础入门JavaScript》的时...

JandenMa
今天
0
0
linux mint 1.9 qq 安装

转: https://www.jianshu.com/p/cdc3d03c144d 1. 下载 qq 轻聊版,可在百度搜索后下载 QQ7.9Light.exe 2. 去wine的官网(https://wiki.winehq.org/Ubuntu) 安装 wine . 提醒网页可以切换成中...

Canaan_
今天
0
0
PHP后台运行命令并管理运行程序

php后台运行命令并管理后台运行程序 class ProcessModel{ private $pid; private $command; private $resultToFile = ''; public function __construct($cl=false){......

colin_86
今天
1
0
数据结构与算法4

在此程序中,HighArray类中的find()方法用数据项的值作为参数传递,它的返回值决定是否找到此数据项。 insert()方法向数组下一个空位置放置一个新的数据项。一个名为nElems的字段跟踪记录着...

沉迷于编程的小菜菜
今天
1
1
fiddler安装和基本使用以及代理设置

项目需求 由于开发过程中客户端和服务器数据交互非常频繁,有时候服务端需要知道客户端调用接口传了哪些参数过来,这个时候就需要一个工具可以监听这些接口请求参数,已经接口的响应的数据,这种...

银装素裹
今天
0
0
Python分析《我不是药神》豆瓣评论

读取 Mongo 中的短评数据,进行中文分词 对分词结果取 Top50 生成词云 生成词云效果 看来网上关于 我不是药神 vs 达拉斯 的争论很热啊。关于词频统计就这些,代码中也会完成一些其它的分析任...

猫咪编程
今天
0
0
虚拟机怎么安装vmware tools

https://blog.csdn.net/tjcwt2011/article/details/72638977

AndyZhouX
昨天
1
0
There is no session with id[xxx]

参考网页 https://blog.csdn.net/caimengyuan/article/details/52526765 报错 2018-07-19 23:04:35,330 [http-nio-1008-exec-8] DEBUG [org.apache.shiro.web.servlet.SimpleCookie] - Found......

karma123
昨天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部