文档章节

词级语言建模与字符级语言建模

AllenOR灵感
 AllenOR灵感
发布于 2017/09/10 01:23
字数 666
阅读 3
收藏 0

目前在自然语言理解问题中,字符级语言建模得到越来越多的关注。在这里,我简单地比较了一下字符级语言模型和词级语言模型。

词级语言建模是指把词作为文本信息的最小单位。在语义空间中,单词就好像是空间中的一个节点。在这种情况下,通过 TF 技术或者主题模型技术或者词嵌入模型来生成特征向量或字矢量,每个单词都用一个数字或者一个矢量来表示,之后就可以像循环神经网络这样的模型进行训练。目前,比较流行的方法是使用词嵌入来得到特征向量。该方法是训练一个大型的语料库,从而来得到一个 Word2Vec 模型。Word2Vec 模型包含一个词典,其中每个单词都是一个矢量化信息。

字符级语言建模就像用一个 0-1 向量来表示每一个字符,并且将这个向量送入模型进行训练,而文本中的语法和单词语义被简单地忽略掉,因为我们相信模型可以捕捉到这些语法和单词语义信息。字符级语言建模的思想来自于信号处理。

语言建模中面临的挑战是字符级语言建模,它需要大量的数据和足够多的训练次数,以便使得模型可以足够聪明从文本中提取出语法信息和单词语义信息。此外,它还需要数据扩充(通过使用同义词替换文本的部分),以避免泛化错误。

另一方面,词级语言建模的缺点是需要使用额外的 Word2Vec 分布模型,但构建这个模型需要大量的时间和精力。

如果我们使用 Tweet 的字向量来训练模型,那么字符级语言建模在短文本分析中能取得卓越的表现。

我们在使用词级语言建模时,我们会导入一个巨大的 Word2Vec 模型,并且还要分析那些未知词和拼写错误的单词。

那么,哪个模型是最好的呢?

我个人认为,字符级语言建模更像人类的智慧。假设,我们能构建一个足够聪明的模型,这个模型能理解更高级别的表示(比如,单词语义等),那么这个字符级语言建模就是非常伟大的。


来源:rnnandi

本文转载自:http://www.jianshu.com/p/1190ea07652a

AllenOR灵感
粉丝 11
博文 2635
码字总数 83001
作品 0
程序员
私信 提问
神经网络语言建模系列之六:字符级模型

语言建模一直均以分词为最小单位,即词级语言模型。后来研究者尝试在字符级别进行语言建模,提出了数种字符级的语言模型,其中最为成功是Y. Kim and et. al. (2015)提出的模型。字符级语言模...

施孙甲由
06/23
0
0
教程 | 从字符级的语言建模开始,了解语言模型与序列建模的基本概念

  选自imaddabbura   机器之心编译      你有没有想过 Gmail 自动回复是如何进行的?或者手机在你输入文本时如何对下一个词提出建议?生成文本序列的通常方式是训练模型在给定所有先...

机器之心
2018/04/13
0
0
NLP&深度学习:近期趋势概述

摘要:当NLP遇上深度学习,到底发生了什么样的变化呢? 在最近发表的论文中,Young及其同事汇总了基于深度学习的自然语言处理(NLP)系统和应用程序的一些最新趋势。本文的重点介绍是对各种N...

阿里云云栖社区
2018/09/21
0
0
手把手 | 用Python语言模型和LSTM做一个Drake饶舌歌词生成器

未来AI的主要应用是在建立能够学习数据然后生成原创内容的网络。这个想法已经充分应用于在自然语言处理(NLP)领域,这也是AI社区能够搭建出所谓语言模型的原因:语言模型的前提是学习句子在...

技术小能手
2018/06/14
0
0
NLP&深度学习:近期趋势概述(一)

在最近发表的论文中,Young及其同事汇总了基于深度学习的自然语言处理(NLP)系统和应用程序的一些最新趋势。本文的重点介绍是对各种NLP任务(如视觉问答(QA)和机器翻译)最新技术(SOTA)...

【方向】
2018/09/20
0
0

没有更多内容

加载失败,请刷新页面

加载更多

SpringBoot中 集成 redisTemplate 对 Redis 的操作(二)

SpringBoot中 集成 redisTemplate 对 Redis 的操作(二) List 类型的操作 1、 向列表左侧添加数据 Long leftPush = redisTemplate.opsForList().leftPush("name", name); 2、 向列表右......

TcWong
今天
5
0
排序––快速排序(二)

根据排序––快速排序(一)的描述,现准备写一个快速排序的主体框架: 1、首先需要设置一个枢轴元素即setPivot(int i); 2、然后需要与枢轴元素进行比较即int comparePivot(int j); 3、最后...

FAT_mt
昨天
4
0
mysql概览

学习知识,首先要有一个总体的认识。以下为mysql概览 1-架构图 2-Detail csdn |简书 | 头条 | SegmentFault 思否 | 掘金 | 开源中国 |

程序员深夜写bug
昨天
10
0
golang微服务框架go-micro 入门笔记2.2 micro工具之微应用利器micro web

micro web micro 功能非常强大,本文将详细阐述micro web 命令行的功能 阅读本文前你可能需要进行如下知识储备 golang分布式微服务框架go-micro 入门笔记1:搭建go-micro环境, golang微服务框架...

非正式解决方案
昨天
8
0
前端——使用base64编码在页面嵌入图片

因为页面中插入一个图片都要写明图片的路径——相对路径或者绝对路径。而除了具体的网站图片的图片地址,如果是在自己电脑文件夹里的图片,当我们的HTML文件在别人电脑上打开的时候图片则由于...

被毒打的程序猿
昨天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部