文档章节

词级语言建模与字符级语言建模

AllenOR灵感
 AllenOR灵感
发布于 2017/09/10 01:23
字数 666
阅读 0
收藏 0

目前在自然语言理解问题中,字符级语言建模得到越来越多的关注。在这里,我简单地比较了一下字符级语言模型和词级语言模型。

词级语言建模是指把词作为文本信息的最小单位。在语义空间中,单词就好像是空间中的一个节点。在这种情况下,通过 TF 技术或者主题模型技术或者词嵌入模型来生成特征向量或字矢量,每个单词都用一个数字或者一个矢量来表示,之后就可以像循环神经网络这样的模型进行训练。目前,比较流行的方法是使用词嵌入来得到特征向量。该方法是训练一个大型的语料库,从而来得到一个 Word2Vec 模型。Word2Vec 模型包含一个词典,其中每个单词都是一个矢量化信息。

字符级语言建模就像用一个 0-1 向量来表示每一个字符,并且将这个向量送入模型进行训练,而文本中的语法和单词语义被简单地忽略掉,因为我们相信模型可以捕捉到这些语法和单词语义信息。字符级语言建模的思想来自于信号处理。

语言建模中面临的挑战是字符级语言建模,它需要大量的数据和足够多的训练次数,以便使得模型可以足够聪明从文本中提取出语法信息和单词语义信息。此外,它还需要数据扩充(通过使用同义词替换文本的部分),以避免泛化错误。

另一方面,词级语言建模的缺点是需要使用额外的 Word2Vec 分布模型,但构建这个模型需要大量的时间和精力。

如果我们使用 Tweet 的字向量来训练模型,那么字符级语言建模在短文本分析中能取得卓越的表现。

我们在使用词级语言建模时,我们会导入一个巨大的 Word2Vec 模型,并且还要分析那些未知词和拼写错误的单词。

那么,哪个模型是最好的呢?

我个人认为,字符级语言建模更像人类的智慧。假设,我们能构建一个足够聪明的模型,这个模型能理解更高级别的表示(比如,单词语义等),那么这个字符级语言建模就是非常伟大的。


来源:rnnandi

本文转载自:http://www.jianshu.com/p/1190ea07652a

共有 人打赏支持
AllenOR灵感
粉丝 10
博文 2634
码字总数 82983
作品 0
程序员
教程 | 从字符级的语言建模开始,了解语言模型与序列建模的基本概念

  选自imaddabbura   机器之心编译      你有没有想过 Gmail 自动回复是如何进行的?或者手机在你输入文本时如何对下一个词提出建议?生成文本序列的通常方式是训练模型在给定所有先...

机器之心
04/13
0
0
手把手 | 用Python语言模型和LSTM做一个Drake饶舌歌词生成器

未来AI的主要应用是在建立能够学习数据然后生成原创内容的网络。这个想法已经充分应用于在自然语言处理(NLP)领域,这也是AI社区能够搭建出所谓语言模型的原因:语言模型的前提是学习句子在...

技术小能手
06/14
0
0
鲍捷 | 知识图谱从 0 级到 10 级简化版

本文转载自公众号:文因学堂。 文因学以前写过几个进阶指南,可能都太难,不接地气。这里重新写一个更实事求是、更便于工程落地的版本 0级:掌握正则表达式、SQL、JSON和一门支持if-then-els...

tgqdt3ggamdkhaslzv
2017/12/01
0
0
用Python语言模型和LSTM做一个Drake饶舌歌词生成器

     大数据文摘出品   编译:Fei、倪倪、什锦甜、钱天培   未来AI的主要应用是在建立能够学习数据然后生成原创内容的网络。这个想法已经充分应用于在自然语言处理(NLP)领域,这也...

大数据文摘
06/14
0
0
业界 | 微软提出新型通用神经机器翻译方法,挑战低资源语言翻译问题

  选自Microsoft Research Blog   作者:Hany Hassan Awadalla   机器之心编译   参与:Nurhachu Null、路      近日微软发布博客,提出一种半监督通用神经机器翻译方法,解决低...

机器之心
05/28
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

java工程师用spring boot和web3j构建以太坊区块链应用

区块链最近IT世界的流行语之一。这项有关数字加密货币的技术,并与比特币一起构成了这个热门的流行趋势。它是去中心化的,不可变的分块数据结构,这是可以安全连接和使用的密码算法。在这种结...

笔阁
1分钟前
0
0
聊聊sentinel的SentinelWebAutoConfiguration

序 本文主要研究一下sentinel的SentinelWebAutoConfiguration SentinelWebAutoConfiguration spring-cloud-alibaba-sentinel-autoconfigure-0.2.0.BUILD-SNAPSHOT-sources.jar!/org/springf......

go4it
3分钟前
0
0
java ArrayList 根据对象内的属性排序

//根据修改时间排序Comparator com = new Comparator<ReleaseInfo>() {public int compare(ReleaseInfo reInfo1, ReleaseInfo reInfo2) { //return reInfo2.getModifyTime().c......

成长中的小白
3分钟前
0
0
PowerDesigner p f m

(非原创) P:PirmaryKey 主键 F:ForeignKey 外键 M:Mandatory 强制要求(不能为空) 主键: 主键是数据表的唯一索引,比如学生表里有学号和姓名,姓名可能有重名的,但学号确是唯一的,你要从...

森火
4分钟前
0
0
Nexus Repository Manager 搭建私有docker仓库

Nexus Repository Manager 搭建私有docker仓库 2018年05月08日 14:44:23 阅读数:115 1.下载nexus3的镜像: docker pull sonatype/nexus3 2.使用镜像启动一个容器: docker run -d --name n...

linjin200
5分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部