文档章节

开源 java CMS - FreeCMS2.3 Web页面信息采集

freeteam
 freeteam
发布于 2015/04/01 08:31
字数 1675
阅读 18
收藏 1

原文地址:http://javaz.cn/site/javaz/site_study/info/2015/23312.html

项目地址:http://www.freeteam.cn/

Web页面信息采集

   从FreeCMS 2.1开始支持

通过简单配置即可抓取目标网页信息,支持增量式采集、关键字替换、定时采集,同一采集规则可采集多个页面(静态和动态),可采集多种信息属性,可自动审核且静态化信息页面。

采集规则管理

从左侧管理菜单点击采集规则进入。

添加采集规则

在采集规则列表下方点击"添加"按钮。

填写相关属性后点击"保存"按钮即可。

采集规则属性说明

采集规则属性分为基本、设置、采集地址,采集属性,关键词替换。

一般情况下只要在基本选项卡填写相关属性即可完成。如果需要更多高级设置可以使用后面几个选项卡。

下面针对主要属性进行解释说明。

名称:采集规则的名称。

采集到栏目:采集的信息要添加到那个栏目。

页面编码:目标网页的页面编码,默认为UTF-8。

采集地址:目标网页的地址。在基本选项卡中只能设置一个,想要设置多个可以在采集地址选项卡中设置。

采集调度:设置定时执行采集操作,这个设置非常重要,只有设置了采集调度系统才执行采集操作。

内容列表开始结束html:因为系统是通过对目标网页内容进行关键词截取来提取信息属性的,所以设置目标属性的开始结束html就很重要,一定要设置为相对比较唯一的开始结束html,这样系统才能正确的截取到目标属性。此属性主要为了截取目标页面信息列表的html.

内容地址开始结束html:根据上面的属性获取内容列表html后,使用此属性截取各个内容地址。

内容标题开始结束html:根据上面的属性获取内容地址后,系统会抓取此内容地址的网页内容,然后根据此属性截取内容标题。内容相关属性的设置跟此属性类似,下面不再赘述。

状态:启用状态下的采集规则,系统才会执行。

采集图片:将信息内容中的图片下载到本地。

自动审核通过:将采集的信息直接设置为已审核状态。

使用采集信息点击量:默认采集到的信息的点击量为0,设置此属性和内容点击量开始结束html后系统会截取目标信息的点击量,设置为采集后信息的点击量。

最多采集内容数:默认不限制,如果设置了此属性,系统会从采集记录中统计此采集规则已采集了多少条信息,如果超过最多采集内容数,系统将不再采集。

将首幅图片设为标题图片:如果信息内容中有图片,则提取第一张做为标题图片,并设置信息为图片信息。

清除内容中的html标签:将信息内容中的html标签清除,保留纯文本。

当内容为空时是否采集:可设置在内容为空时不采集此信息。

使用采集信息的添加时间:默认采集到的信息的添加时间为当前时间,设置此属性和内容添加时间开始结束html后系统会截取目标信息的添加时间,设置为采集后信息的添加时间。

采集信息添加时间格式:默认格式为yyyy-MM-dd,如果目标页面的添加时间格式不同,需要在这里设置为正确的日期格式。

采集开始时间:默认为当前时间,如果不到采集开始时间,系统是不会采集的。

采集结束时间:默认为永不结束,如果超过采集结束时间,系统是不会采集的。

内容地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置内容地址的前缀。

图片地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置图片链接地址的前缀。

内容中A标签链接地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置内容中A标签链接地址的前缀。

采集地址分为静态和动态地址,静态地址为固定的地址,动态地址一般指可以分页的地址,通过{page}来代表分页变量,可以设置从那一页采集到那一页,如http://www.freetam.cn/list_{page}.html,设置开始页数为1,结束页数为10,系统会自动提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html所有页面的数据。

一般情况下我们只采集信息的标题和内容就可以了,系统还提供采集内容描述、点击量、作者、来源、添加时间属性的功能。

通过关键词替换功能,您可以将采集到的信息里面的关键词替换为自己想要的关键词。


编辑采集规则

选择需要编辑的采集规则,然后点击"编辑"按钮。

注意:同时只能编辑一个采集规则。

填写相关属性后点击"保存"按钮即可。

采集

选择需要采集的采集规则,然后点击"采集"按钮。

注意:同时只能对一个采集规则进行采集操作。

删除采集规则

选择需要删除的采集规则,然后点击"删除"按钮。

提示:同时可以删除多个采集规则。

为了防止误操作,系统会提示用户是否删除,点击"确定"完成删除操作。

查看采集记录

从左侧管理菜单点击采集记录进入。

在这里可以查看到所有web页面采集记录,您可以删除指定的采集记录,但并不会删除已采集的信息数据,选择需要删除的采集记录,然后点击"删除"按钮。

   提示:同时可以删除多个采集记录。


为了防止误操作,系统会提示用户是否删除,点击"确定"完成删除操作。

© 著作权归作者所有

共有 人打赏支持
freeteam

freeteam

粉丝 25
博文 437
码字总数 152572
作品 1
郑州
程序员
10 个最受欢迎的 Java 开发的 CMS 系统

转于:http://www.oschina.net/news/32888/10-most-popular-java-based-cms CMS是Content Management System的缩写,意为"内容管理系统",它具有许多基于模板的优秀设计,可以加快网站开发的...

stamen
2015/08/19
0
0
如何构建 HBase 集群监控系统?

公司有自己的监控系统,我们所要做的就是将 HBase 中我们关心的指标项发送到监控系统去,问题就转换为我们开发,采集并返回哪些 HBase 集群监控指标项。 HBase 集群监控指标 采集的监控数据主...

行走在旅途中
2017/11/06
0
0
基于 Java 的 CMS 解决方案 - tjpcms

官网:http://www.tjpcms.com tjpcms 是一套基于 Java 的 CMS 解决方案,开源免费。其独有的实时配置增删改查的功能,是其区别于同类 cms 的最大特点,也是最大优势,极大减少了重复劳动。懂...

金盆洗手
2017/01/12
0
6
33款可用来抓数据的开源爬虫软件工具

要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫...

Airship
2015/11/09
0
1
[开源java项目]Spring+Struts2+Hibernate+Easyui+Maven+Framemaker实现内容管理系统

github地址已经更新,欢迎star cms(内容管理系统),主要实现功能是后台能实时控制前台。这里分享出来。后台填写相应的信息之后,点击生成页面,会重新加载ftl文件,生成html静态文件。希望...

程序员小哥哥
07/15
0
0

没有更多内容

加载失败,请刷新页面

加载更多

在Debian 9系统上安装Mysql数据库的方法教程

前言 看到题目大家应都会想,在 Debian 9 上安装 Mysql?那不是很简单的事儿吗?直接 sudo apt install mysql-server 不就行了吗? 没想到遇到了几个之前没遇到的问题,耽误了不少时间。 原来...

临江仙卜算子
42分钟前
4
1
从web实时通信讲H5 WebSocket

通常我们打开一个浏览器访问网页时,都会向页面所在的服务器发送一个HTTP请求,然后web服务器确认请求并向浏览器做出响应。简单的说,就是一个请求对应的一个响应。然而这种方法对许多的应用...

Code辉
56分钟前
3
0
Sharding-Sphere自动化执行引擎

Q: 什么叫"自动化执行引擎"? A: 一条SQL的生命周期是:从客户端发起、经过Sharding-Sphere处理、再到底层数据库执行消化。而在Sharding-Sphere里过程则是:SQL解析-->SQL优化-->SQL路由-->...

xiaomin0322
59分钟前
2
0
单模块中ReentrantLock的使用

背景 在单模块应用中,对同一个请求,需要进行同步。注意ReentrantLock的使用场景: 同一个线程中 同一个请求 RestController @RestControllerpublic class Controller {private final Re...

亚林瓜子
今天
2
0
Linux 4.1内核热补丁成功实践

好久不见的干货重现江湖!今日的内容是基于UCloud运维同学反馈的个别宿主机上存在进程CPU峰值使用率异常现象问题进行的相关阐述。本文详细介绍了该问题的完整分析思路和用热补丁的方式成功解...

UCloudTech
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部