文档章节

使用Gather Platform进行大规模新闻语料采集

gsh199449
 gsh199449
发布于 2017/02/17 19:47
字数 1295
阅读 909
收藏 4

Gather Platform 数据抓取平台是一套基于 Webmagic 内核的,具有 Web 任务配置和任务管理界面的数据采集平台,一个轻量级的搜索引擎系统。具有以下功能

  • 根据配置的模板进行数据采集

  • 对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词

  • 在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间

  • 动态字段抽取与静态字段植入

  • 已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据

  • 多数据输出方式:Elasticsearch、JSON文本,Redis

5分钟即可部署完毕,半分钟即可完成一个爬虫,开始数据采集. 不需要进行任何编码就可以完成一个功能强大的爬虫.

详细介绍:https://www.oschina.net/p/gather-platform

源码:http://git.oschina.net/gsh199449/spider

使用手册:https://gsh199449.github.io/gather_platform_pages

使用手册非常详细,查看使用手册即可解决安装部署和使用中的绝大多数问题。如果还有上面未涉及到的问题,可以加QQ群一起交流:206264662。

在NLP领域,语料的采集对于模型的训练是非常重要的。下面我们使用这个平台完成新闻语料的采集。

首先,我们确定带抓取的网站,腾讯新闻。打开腾讯新闻首页,随便点击几条链接,观察链接URL的格式规律。以下给出几个样例URL:

  • http://news.qq.com/a/20170217/030565.htm
  • http://news.qq.com/a/20170217/022717.htm

通过观察我们发现,链接的结构基本是:“http://news.qq.com/a/8位数字日期/几位数字.htm”。

于是我们打开爬虫模板配置界面,开始进行采集模板配置。

  1. 在siteName一栏填入网站名称,这里我们填写“腾讯新闻”
  2. 在domain一栏中填写域名,域名即URL中的第一部分,对于腾讯新闻网站来说域名就是“news.qq.com”。对于网址“https://my.oschina.net/gsh199449/blog”来说,域名即为“my.oschina.net”
  3.  接下来点击startURL输入框,此时系统会自动在这一栏中填入一个起始地址,即 这个域名的根目录。如果你的起始地址不是这个URL,则可以自行更改。在本例中,我们就从腾讯新闻的首页作为入口即可。
  4. 下面点击“显示高级配置”,找到contentXPath一栏,在这个输入框中,我们使用XPath语法告诉爬虫,在网页上,哪部分是正文(content)。通过观察腾讯新闻网站源码我们 发现,所有的正文都被包含在一个id为“Cnt-Main-Article-QQ”的DIV标签中。所以在这一栏中,我们填入:“//div[@id="Cnt-Main-Article-QQ"]//tidyText()”。
  5. 找到“urlReg”一栏,填写一个URL规则,指定符合那些模式的URL需要被抓取。在这里我们使用上面总结的URL规则,将其转换为正则表达式:“http://news\.qq\.com/a/\d{8}/\d*\.htm”
  6. 类似于配置正文的抽取规则,我们再配置一下文章发布时间的抽取规则。从网页源码可知,时间包含在一个具有属性“class="a_time"”的span标签中。网页上显示的时间是这样的形式:“2017-02-17 11:05”。于是在publishTimeXPath一栏中填写如下的XPath表达式:“//span[@class="a_time"]/text()”。为了使计算机能够识别网页上显示的时间格式,我们需要告诉计算机哪些数字是年份,哪些是月份等等模式。所以我们在publishTimeFormat一栏中填写:“yyyy-MM-dd hh:mm”。
  7. 到这里,爬虫模板基本配置完毕,我们可以点击浅蓝色的“抓取样例数据”按钮进行测试抓取。等待抓取完毕后即可在网页上看到根据上面我们配置的模板抓取到的数据。

    从上面的结果我们看到,有一些网页没有正文,有一些有。观察那些没有正文的网页,其中确实没有正文,是图集。所以我们可以勾选“是否网页必须有正文”选项,勾选了这个选项之后,爬虫将抛弃那些正文字段为空的网页。请注意,在确保正文的配置确实能抽到数据之前切勿勾选这个选项,这可能导致爬虫无限抓取来寻找那个错误的正文匹配项。
  8. 此时模板已经配置完毕,可以开始正式的抓取。在正式开始抓取之前,我们需要调整最大抓取数量,这个数量默认是10. 这是为了方便测试模板所设。调整“maxPageGather”字段至你想要的数据量,在这里我们使用100。然后即可点击红色的“提交抓取任务”按钮进行正式的抓取。
  9. 待数据抓取完毕即可在“网站列表”页面查看每个网站的总采集数量,点击导出数据按钮即可下载数据。

© 著作权归作者所有

gsh199449
粉丝 5
博文 1
码字总数 1295
作品 1
海淀
程序员
私信 提问
加载中

评论(2)

gsh199449
gsh199449 博主

引用来自“红薯”的评论

代码居然不是在码云上,没法推荐哦
已修改正文链接,码云上也有的,地址:http://git.oschina.net/gsh199449/spider
红薯
红薯
代码居然不是在码云上,没法推荐哦
腾讯AI Lab开源800万中文词的NLP数据集 | 资源

允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI 鹅厂开源,+1 again~ 又一来自腾讯AI实验室的资源帖。 腾讯AI实验室宣布,正式开源一个大规模、高质量的中文词向量数据集。 该数据包含800多万...

量子位
2018/10/19
0
0
最全NLP语料资源集合及其构建现状

本项目包含中文自然语言处理的语料集合,包括语义词、领域共时、历时语料库、评测语料库等。本项目简单谈谈自己对语言资源的感想以及目前自己进行语言资源构建的现状。 介绍 语言资源,本身是...

AI科技大本营
01/11
0
0
你不知道的数字化转型,与IBM再造高效个性化新闻

根据慧聪的《2016年中国广电行业发展报告》,2016年我国广电行业搭乘“互联网+”的快车,深层融合、深度洗牌,深刻改变行业内在结构,激发行业新发展,2016年是广电改革发展、转型升级、提质...

云科技时代
2017/11/23
0
0
800万中文词,腾讯AI Lab开源大规模NLP数据集

参加 2018 AI开发者大会,请点击 ↑↑↑ 10 月19 日,腾讯 AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含 800 多万中文词汇。 腾讯 AI Lab 表示,相比现有的公开数据,该数据在...

AI科技大本营
2018/10/19
0
0
NLPIR大数据分词技术行业信息挖掘的推动者

  随着计算机的日益普及,互联网的快速发展,文本的数量(电子邮件、新闻、网页、科技论文等)在不停的增长,因而对文本作智能化处理以获取所需信息的需求日益迫切。在这样的社会需求下,自然...

ljrj123
04/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

rime设置为默认简体

转载 https://github.com/ModerRAS/ModerRAS.github.io/blob/master/_posts/2018-11-07-rime%E8%AE%BE%E7%BD%AE%E4%B8%BA%E9%BB%98%E8%AE%A4%E7%AE%80%E4%BD%93.md 写在开始 我的Arch Linux上......

zhenruyan
今天
5
0
简述TCP的流量控制与拥塞控制

1. TCP流量控制 流量控制就是让发送方的发送速率不要太快,要让接收方来的及接收。 原理是通过确认报文中窗口字段来控制发送方的发送速率,发送方的发送窗口大小不能超过接收方给出窗口大小。...

鏡花水月
今天
10
0
OSChina 周日乱弹 —— 别问,问就是没空

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @tom_tdhzz :#今日歌曲推荐# 分享容祖儿/彭羚的单曲《心淡》: 《心淡》- 容祖儿/彭羚 手机党少年们想听歌,请使劲儿戳(这里) @wqp0010 :周...

小小编辑
今天
1K
11
golang微服务框架go-micro 入门笔记2.1 micro工具之micro api

micro api micro 功能非常强大,本文将详细阐述micro api 命令行的功能 重要的事情说3次 本文全部代码https://idea.techidea8.com/open/idea.shtml?id=6 本文全部代码https://idea.techidea8....

非正式解决方案
今天
5
0
Spring Context 你真的懂了吗

今天介绍一下大家常见的一个单词 context 应该怎么去理解,正确的理解它有助于我们学习 spring 以及计算机系统中的其他知识。 1. context 是什么 我们经常在编程中见到 context 这个单词,当...

Java知其所以然
昨天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部