文档章节

开源 java CMS - FreeCMS2.3 Web页面信息采集

freeteam
 freeteam
发布于 2015/04/01 08:31
字数 1675
阅读 18
收藏 1
点赞 0
评论 0

原文地址:http://javaz.cn/site/javaz/site_study/info/2015/23312.html

项目地址:http://www.freeteam.cn/

Web页面信息采集

   从FreeCMS 2.1开始支持

通过简单配置即可抓取目标网页信息,支持增量式采集、关键字替换、定时采集,同一采集规则可采集多个页面(静态和动态),可采集多种信息属性,可自动审核且静态化信息页面。

采集规则管理

从左侧管理菜单点击采集规则进入。

添加采集规则

在采集规则列表下方点击"添加"按钮。

填写相关属性后点击"保存"按钮即可。

采集规则属性说明

采集规则属性分为基本、设置、采集地址,采集属性,关键词替换。

一般情况下只要在基本选项卡填写相关属性即可完成。如果需要更多高级设置可以使用后面几个选项卡。

下面针对主要属性进行解释说明。

名称:采集规则的名称。

采集到栏目:采集的信息要添加到那个栏目。

页面编码:目标网页的页面编码,默认为UTF-8。

采集地址:目标网页的地址。在基本选项卡中只能设置一个,想要设置多个可以在采集地址选项卡中设置。

采集调度:设置定时执行采集操作,这个设置非常重要,只有设置了采集调度系统才执行采集操作。

内容列表开始结束html:因为系统是通过对目标网页内容进行关键词截取来提取信息属性的,所以设置目标属性的开始结束html就很重要,一定要设置为相对比较唯一的开始结束html,这样系统才能正确的截取到目标属性。此属性主要为了截取目标页面信息列表的html.

内容地址开始结束html:根据上面的属性获取内容列表html后,使用此属性截取各个内容地址。

内容标题开始结束html:根据上面的属性获取内容地址后,系统会抓取此内容地址的网页内容,然后根据此属性截取内容标题。内容相关属性的设置跟此属性类似,下面不再赘述。

状态:启用状态下的采集规则,系统才会执行。

采集图片:将信息内容中的图片下载到本地。

自动审核通过:将采集的信息直接设置为已审核状态。

使用采集信息点击量:默认采集到的信息的点击量为0,设置此属性和内容点击量开始结束html后系统会截取目标信息的点击量,设置为采集后信息的点击量。

最多采集内容数:默认不限制,如果设置了此属性,系统会从采集记录中统计此采集规则已采集了多少条信息,如果超过最多采集内容数,系统将不再采集。

将首幅图片设为标题图片:如果信息内容中有图片,则提取第一张做为标题图片,并设置信息为图片信息。

清除内容中的html标签:将信息内容中的html标签清除,保留纯文本。

当内容为空时是否采集:可设置在内容为空时不采集此信息。

使用采集信息的添加时间:默认采集到的信息的添加时间为当前时间,设置此属性和内容添加时间开始结束html后系统会截取目标信息的添加时间,设置为采集后信息的添加时间。

采集信息添加时间格式:默认格式为yyyy-MM-dd,如果目标页面的添加时间格式不同,需要在这里设置为正确的日期格式。

采集开始时间:默认为当前时间,如果不到采集开始时间,系统是不会采集的。

采集结束时间:默认为永不结束,如果超过采集结束时间,系统是不会采集的。

内容地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置内容地址的前缀。

图片地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置图片链接地址的前缀。

内容中A标签链接地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置内容中A标签链接地址的前缀。

采集地址分为静态和动态地址,静态地址为固定的地址,动态地址一般指可以分页的地址,通过{page}来代表分页变量,可以设置从那一页采集到那一页,如http://www.freetam.cn/list_{page}.html,设置开始页数为1,结束页数为10,系统会自动提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html所有页面的数据。

一般情况下我们只采集信息的标题和内容就可以了,系统还提供采集内容描述、点击量、作者、来源、添加时间属性的功能。

通过关键词替换功能,您可以将采集到的信息里面的关键词替换为自己想要的关键词。


编辑采集规则

选择需要编辑的采集规则,然后点击"编辑"按钮。

注意:同时只能编辑一个采集规则。

填写相关属性后点击"保存"按钮即可。

采集

选择需要采集的采集规则,然后点击"采集"按钮。

注意:同时只能对一个采集规则进行采集操作。

删除采集规则

选择需要删除的采集规则,然后点击"删除"按钮。

提示:同时可以删除多个采集规则。

为了防止误操作,系统会提示用户是否删除,点击"确定"完成删除操作。

查看采集记录

从左侧管理菜单点击采集记录进入。

在这里可以查看到所有web页面采集记录,您可以删除指定的采集记录,但并不会删除已采集的信息数据,选择需要删除的采集记录,然后点击"删除"按钮。

   提示:同时可以删除多个采集记录。


为了防止误操作,系统会提示用户是否删除,点击"确定"完成删除操作。

© 著作权归作者所有

共有 人打赏支持
freeteam

freeteam

粉丝 25
博文 418
码字总数 144906
作品 1
郑州
程序员
基于 Java 的 CMS 解决方案 - tjpcms

官网:http://www.tjpcms.com tjpcms 是一套基于 Java 的 CMS 解决方案,开源免费。其独有的实时配置增删改查的功能,是其区别于同类 cms 的最大特点,也是最大优势,极大减少了重复劳动。懂...

金盆洗手 ⋅ 2017/01/12 ⋅ 6

Java easycms 2.0 发布,简单灵活的 Java CMS

Java easycms 2.0 发布。 精简 js 框架,删除不开源的 ace ui 框架,改为更简洁,理论支持 n 级节点的层级菜单 默认使用嵌入式数据库 h2 使用 jetty 作为 servlet 容器启动服务,配合 maven ...

姜小北 ⋅ 04/26 ⋅ 1

燃!Java全球标准中国人参与制定,阿里成首个受邀中国公司

2018年5月17日,作为唯一中国代表,阿里巴巴获邀加入Java全球管理组织Java Community Process (JCP)的最高执行委员会。此次获得执行委员会席位,让中国企业首次加入到Java全球标准的制定中,...

技术小能手 ⋅ 05/17 ⋅ 0

Java 内容管理系统 - JTopCMS

JTopCMS基于JavaEE标准自主研发,是用于管理站群内容的开源内容管理软件(CMS),能高效便捷的进行内容采编,审核,模板制作,用户交互管理以及文件,业务文档等资源的维护。性能优秀,稳定,安...

JtopMJ ⋅ 06/06 ⋅ 0

Java 5 、6、 7中新特性

JDK5新特性(与1.4相比)【转】 1 循环 for (type variable : array){ body} for (type variable : arrayList){body} 而1.4必须是: for (int i = 0; i < array.length; i++){ type variabl......

thinkyoung ⋅ 2014/10/14 ⋅ 0

阿里获邀加入 JCP ,参与制定 Java 全球标准和技术规范

2018年5月17日,作为唯一中国代表,阿里巴巴获邀加入 Java 全球管理组织 Java Community Process (JCP) 的最高执行委员会。此次获得执行委员会席位,让中国企业首次加入到 Java 全球标准的制...

王练 ⋅ 05/17 ⋅ 5

JAVA虚拟机 JVM 详细分析 原理和优化(个人经验+网络搜集整理学习)

JVM是java实现跨平台的主要依赖就不具体解释它是什么了 ,简单说就是把java的代码转化为操作系统能识别的命令去执行,下面直接讲一下它的组成 1.ClassLoader(类加载器) 加载Class 文件到内...

小海bug ⋅ 06/14 ⋅ 0

Java 面试知识点解析(三)——JVM篇

前言: 在遨游了一番 Java Web 的世界之后,发现了自己的一些缺失,所以就着一篇深度好文:知名互联网公司校招 Java 开发岗面试知识点解析 ,来好好的对 Java 知识点进行复习和学习一番,大部...

我没有三颗心脏 ⋅ 05/16 ⋅ 0

面试中关于Java虚拟机(jvm)的问题看这篇就够了

最近看书的过程中整理了一些面试题,面试题以及答案都在我的文章中有所提到,希望你能在以问题为导向的过程中掌握虚拟机的核心知识。面试毕竟是面试,核心知识我们还是要掌握的,加油~~~ 下面...

snailclimb ⋅ 05/12 ⋅ 0

甲骨文开源Java 性能监控调试工具 JMC

JMC (Java Mission Control) 是Oracle开源的Java 性能监控调试工具, 源自 JRockit JVM , 主要由三个组件构成:Java 进程浏览器、JMX 控制台和 Java Flight 记录器。 主要特性: Java 进程浏览...

marsdream ⋅ 05/07 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

从 Confluence 5.3 及其早期版本中恢复空间

如果你需要从 Confluence 5.3 及其早期版本中的导出文件恢复到晚于 Confluence 5.3 的 Confluence 中的话。你可以使用临时的 Confluence 空间安装,然后将这个 Confluence 安装实例升级到你现...

honeymose ⋅ 今天 ⋅ 0

Java8新增的DateTimeFormatter与SimpleDateFormat的区别

两者最大的区别是,Java8的DateTimeFormatter也是线程安全的,而SimpleDateFormat并不是线程安全。 在并发环境下使用SimpleDateFormat 为了能够在多线程环境下使用SimpleDateFormat,有这三种...

人觉非常君 ⋅ 今天 ⋅ 0

多线程如何控制执行顺序

线程的生命周期说明: 当线程被创建并启动以后,它既不是一启动就进入了执行状态,也不是一直处于执行状态,在线程的生命周期中,它要经过新建(New)、就绪(Runnable)、运行(Running)、...

MarinJ_Shao ⋅ 今天 ⋅ 0

用ZBLOG2.3博客写读书笔记网站能创造今日头条的辉煌吗?

最近两年,著名的自媒体网站今日头条可以说是火得一塌糊涂,虽然从目前来看也遇到了一点瓶颈,毕竟发展到了一定的规模,继续增长就更加难了,但如今的今日头条规模和流量已经非常大了。 我们...

原创小博客 ⋅ 今天 ⋅ 0

MyBatis四大核心概念

本文讲解 MyBatis 四大核心概念(SqlSessionFactoryBuilder、SqlSessionFactory、SqlSession、Mapper)。 MyBatis 作为互联网数据库映射工具界的“上古神器”,训有四大“神兽”,谓之:Sql...

waylau ⋅ 今天 ⋅ 0

以太坊java开发包web3j简介

web3j(org.web3j)是Java版本的以太坊JSON RPC接口协议封装实现,如果需要将你的Java应用或安卓应用接入以太坊,或者希望用java开发一个钱包应用,那么用web3j就对了。 web3j的功能相当完整...

汇智网教程 ⋅ 今天 ⋅ 0

2个线程交替打印100以内的数字

重点提示: 线程的本质上只是一个壳子,真正的逻辑其实在“竞态条件”中。 举个例子,比如本题中的打印,那么在竞态条件中,我只需要一个方法即可; 假如我的需求是2个线程,一个+1,一个-1,...

Germmy ⋅ 今天 ⋅ 0

Django第一期

安装Django 去https://www.djangoproject.com/download/ 下载最新版的Django,然后解压放到Anaconda\Lib\site-packages目录下,然后cmd进入此目录,输入安装命令: python setup.py install ...

大不了敲一辈子代码 ⋅ 今天 ⋅ 0

Springboot2 之 Spring Data Redis 实现消息队列——发布/订阅模式

一般来说,消息队列有两种场景,一种是发布者订阅者模式,一种是生产者消费者模式,这里利用redis消息“发布/订阅”来简单实现订阅者模式。 实现之前先过过 redis 发布订阅的一些基础概念和操...

Simonton ⋅ 今天 ⋅ 0

error:Could not find gradle

一.更新Android Studio后打开Project,报如下错误: Error: Could not find com.android.tools.build:gradle:2.2.1. Searched in the following locations: file:/D:/software/android/andro......

Yao--靠自己 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部