文档章节

文本自动摘要概述

Harry_sir
 Harry_sir
发布于 2017/09/18 14:39
字数 1154
阅读 58
收藏 0

1.文本自动摘要的分类

此处只介绍两种,一种是依据输入文本数量划分,一种是摘要和原文的关系划分。

根据输入文本的数量划分,文本摘要技术可以分为单文档摘要和多文档摘要;

根据文摘和原文的关系划分,可以分为摘录式(extraction)文摘和生成式(abstraction)文摘。摘录型文摘由原文中抽取出来的片段组成,理解型文摘是对原文只要内容重新组织后形成的。

2.文本自动摘要的基本步骤

一般来说,自动文摘过程包括三个基本步骤:

(1)文本分析过程:对原文进行分析处理,识别出冗余信息;

(2)文本内容的选取泛化过程:从文档中辨认重要信息,通过摘录或概括的方法压缩文本,或者通过计算分析的方法形成文摘表示;

(3)文摘的转换生成过程:实现对原文内容的重组或者根据内部表示生成文摘,并确保文摘的连贯性

  文摘的输出形式依据文摘的用途和用户需求确定。不同的系统所采用的具体实现方法不同,因此在不同的系统中,上述几个模块所处理的问题和采用的方法也有所差异。

3.文本自动摘要的基本问题

在单文档摘要系统中,一般都采取基于抽取的方法。而对于多文档而言,由于在同一个主题中的不同文档中不可避免地存在信息交叠和信息差异,因此如何避免信息冗余,同时反映出来自不同文档的信息差异是多文档文摘中的首要目标,而要实现这个目标通常以为着要在句子层以下做工作,如对句子进行压缩,合并,切分等。另外,单文档的输出句子一般是按照句子在原文中出现的顺序排列,而在多文档摘要中,大多采用时间顺序排列句子,如何准确的得到每个句子的时间信息,也是多文档摘要需要解决的一个问题。

正如前面所说,自动文摘过程包含三个基本步骤,实现这些基本步骤的方法可以使基于句子抽取的,也可以是基于内容理解的。无论哪种方法,都必须面对三个关键问题:

(1)文档冗余信息的识别与处理

(2)重要信息的辨认

(3)生成文摘的连贯性

4.抽取式摘要优化点

(1)特征提取过程中,除了特征词的提取,还可以提取其他的基本要素来确定句子的重要性。如,句子的基本要素通过三元组<中心词,修饰,关系>来描述,其中中心词为该三元组的重要组成部分。

(2)在提取关键词之前,去掉停用词,然后在你计算词频等信息。为了扩展相同主题下可能出现的同义词现象,可以考虑利用同义词或者替换词、别称等信息提高词频统计的准确性。

(3)通过橘子的类型,对句子进行一次筛选。如,一般情况下,划分句子的时候可以记录句子出现的位置信息,在段落的开头或者结尾会有较大可能出现关键词。句型方面,陈述句一般比感叹句或者疑问句更有可能出现关键词。

(4)针对多文本输入的情况,在关键词提取中,可以使用频繁项集挖掘,并对频繁项集挖掘得到的词项赋予较高权重。

为了减少摘要句子之间的冗余度,可以通过计算句子之间的相似度减少冗余句子,具体过程如下:

(1)将句子按照其重要性由高到低排序

(2)抽取重要性较高的句子Si

(3)选取候选句子Si后,调整剩下的每个待选句子的重要性。待选句子Sj的重要性按照公式:Score(Sj)=Score(Sj)-Sim(Si,Sj)*Score(Si)

(4)剩下句子的重要度按照从高到低的顺序进行排序,选取重要度较高的句子。

(5)重复步骤3、4,直至摘要足够长为止。

 

© 著作权归作者所有

Harry_sir
粉丝 16
博文 80
码字总数 48004
作品 0
朝阳
其他
私信 提问
2017机器学习系列高端培训——深度自然语言与智能(北京站)

本次培训主要针对企业技术开发人员,自然语言处理新晋从业人员,泛人工智能践行者。本课程将概述上述行业的发展现状与挑战,介绍机器学习深度学习等技术与自然语言处理的结合与应用,课程将着...

活动家
2017/08/24
159
0
2017机器学习系列高端培训——深度自然语言与智能(上海站)

本次培训主要针对企业技术开发人员,自然语言处理新晋从业人员,泛人工智能践行者。本课程将概述上述行业的发展现状与挑战,介绍机器学习深度学习等技术与自然语言处理的结合与应用,课程将着...

活动家
2017/08/24
5
0
比机器写作难度更大:微软开发出会总结文本的人工智能系统

用寥寥数语总结和概括新闻内容,这对于人类来说也有不小的难度,对于人工智能技术来说更是艰巨的挑战,因为提炼文章摘要需要机器对文本整体的语意理解,这超出了当前大多数自然语言处理模型的...

CashCat
2018/11/07
0
0
干货|当深度学习遇见自动文本摘要,seq2seq+attention

随着近几年文本信息的爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要(...

mbx8x9u
2018/05/29
0
0
IJCAI 2018 | 腾讯知文等提出新型生成式摘要模型:结合主题信息和强化训练生成更优摘要

  选自arXiv   作者:Li Wang、Junlin Yao、Yunzhe Tao、Li Zhong、Wei Liu、Qiang Du   机器之心编译   参与:Panda      让机器能根据文章的主题思想生成人类能够读懂的文本摘...

机器之心
2018/05/18
0
0

没有更多内容

加载失败,请刷新页面

加载更多

JAVA 实现雪花算法生成唯一订单号工具类

import lombok.SneakyThrows;import lombok.extern.slf4j.Slf4j;import java.util.Calendar;/** * Default distributed primary key generator. * * <p> * Use snowflake......

huangkejie
21分钟前
2
0
PhotoShop 色调:RGB/CMYK 颜色模式

一·、 RGB : 三原色:红绿蓝 1.通道:通道中的红绿蓝通道分别对应的是红绿蓝三种原色(RGB)的显示范围 1.差值模式能模拟三种原色叠加之后的效果 2.添加-颜色曲线:调整图像RGB颜色----R色增强...

东方墨天
41分钟前
5
1
将博客搬至CSDN

将博客搬至CSDN

算法与编程之美
42分钟前
5
0
HTML5+CSS3从入门到精通 中文pdf版​

本文转载于:专业的前端网站➵HTML5+CSS3从入门到精通 中文pdf版 HTML5+CSS3从入门到精通是通过基础知识+中小实例+综合案例的方式,讲述了用HTML5+ CSS3设计构建网站的必备知识,相对于专业指...

前端老手
44分钟前
5
0
聊聊nacos client的ConfigFilterChainManager

序 本文主要研究一下nacos client的ConfigFilterChainManager IConfigFilterChain nacos-1.1.3/api/src/main/java/com/alibaba/nacos/api/config/filter/IConfigFilterChain.java public in......

go4it
51分钟前
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部