文档章节

词级语言建模与字符级语言建模

AllenOR灵感
 AllenOR灵感
发布于 2017/09/10 01:23
字数 666
阅读 0
收藏 0

目前在自然语言理解问题中,字符级语言建模得到越来越多的关注。在这里,我简单地比较了一下字符级语言模型和词级语言模型。

词级语言建模是指把词作为文本信息的最小单位。在语义空间中,单词就好像是空间中的一个节点。在这种情况下,通过 TF 技术或者主题模型技术或者词嵌入模型来生成特征向量或字矢量,每个单词都用一个数字或者一个矢量来表示,之后就可以像循环神经网络这样的模型进行训练。目前,比较流行的方法是使用词嵌入来得到特征向量。该方法是训练一个大型的语料库,从而来得到一个 Word2Vec 模型。Word2Vec 模型包含一个词典,其中每个单词都是一个矢量化信息。

字符级语言建模就像用一个 0-1 向量来表示每一个字符,并且将这个向量送入模型进行训练,而文本中的语法和单词语义被简单地忽略掉,因为我们相信模型可以捕捉到这些语法和单词语义信息。字符级语言建模的思想来自于信号处理。

语言建模中面临的挑战是字符级语言建模,它需要大量的数据和足够多的训练次数,以便使得模型可以足够聪明从文本中提取出语法信息和单词语义信息。此外,它还需要数据扩充(通过使用同义词替换文本的部分),以避免泛化错误。

另一方面,词级语言建模的缺点是需要使用额外的 Word2Vec 分布模型,但构建这个模型需要大量的时间和精力。

如果我们使用 Tweet 的字向量来训练模型,那么字符级语言建模在短文本分析中能取得卓越的表现。

我们在使用词级语言建模时,我们会导入一个巨大的 Word2Vec 模型,并且还要分析那些未知词和拼写错误的单词。

那么,哪个模型是最好的呢?

我个人认为,字符级语言建模更像人类的智慧。假设,我们能构建一个足够聪明的模型,这个模型能理解更高级别的表示(比如,单词语义等),那么这个字符级语言建模就是非常伟大的。


来源:rnnandi

本文转载自:http://www.jianshu.com/p/1190ea07652a

共有 人打赏支持
AllenOR灵感
粉丝 10
博文 2635
码字总数 83001
作品 0
程序员
教程 | 从字符级的语言建模开始,了解语言模型与序列建模的基本概念

  选自imaddabbura   机器之心编译      你有没有想过 Gmail 自动回复是如何进行的?或者手机在你输入文本时如何对下一个词提出建议?生成文本序列的通常方式是训练模型在给定所有先...

机器之心
04/13
0
0
NLP&深度学习:近期趋势概述

摘要:当NLP遇上深度学习,到底发生了什么样的变化呢? 在最近发表的论文中,Young及其同事汇总了基于深度学习的自然语言处理(NLP)系统和应用程序的一些最新趋势。本文的重点介绍是对各种N...

阿里云云栖社区
09/21
0
0
手把手 | 用Python语言模型和LSTM做一个Drake饶舌歌词生成器

未来AI的主要应用是在建立能够学习数据然后生成原创内容的网络。这个想法已经充分应用于在自然语言处理(NLP)领域,这也是AI社区能够搭建出所谓语言模型的原因:语言模型的前提是学习句子在...

技术小能手
06/14
0
0
NLP&深度学习:近期趋势概述(一)

在最近发表的论文中,Young及其同事汇总了基于深度学习的自然语言处理(NLP)系统和应用程序的一些最新趋势。本文的重点介绍是对各种NLP任务(如视觉问答(QA)和机器翻译)最新技术(SOTA)...

【方向】
09/20
0
0
鲍捷 | 知识图谱从 0 级到 10 级简化版

本文转载自公众号:文因学堂。 文因学以前写过几个进阶指南,可能都太难,不接地气。这里重新写一个更实事求是、更便于工程落地的版本 0级:掌握正则表达式、SQL、JSON和一门支持if-then-els...

tgqdt3ggamdkhaslzv
2017/12/01
0
0

没有更多内容

加载失败,请刷新页面

加载更多

精通Spring Boot——第十二篇:分页查询功能的实现

本文将介绍如何实现分页查询功能,推荐使用github的pagehelper插件实现(事实上大家基本都是这么干的),但本文的实现方式和大多数不同,废话少说,现在就带着大家看看区别在哪里。 先看pom...

developlee的潇洒人生
7分钟前
0
0
平淡的秋招之路

1. 概述 在八月中旬之前,我还没有秋招这个概念,认为找工作就是通过学校举办的招聘会。后来慢慢的了解到,由于学校实力的问题,许多好的公司只会去门当户对的学校进行招聘。我们学校只是一个...

firepation
10分钟前
0
0
设置布局中的子控件不可用

RelativeLayout R2 = findViewById(R.id.act_menu_level2_rl); //设置当前R2中的子控件不可用 int childCount = R2.getChildCount(); ......

lanyu96
21分钟前
0
0
分布式系统中处理参数配置的 4 种方案

一个系统中包含有各种各样的配置信息,如一个日志文件需要配置以下几个信息。 日志文件生成主目录 日志文件名称,不同的日志级别对应不同的文件 当前日志级别 还有其他各种业务参数、系统参数...

Java技术栈
23分钟前
1
0
MongoDB的使用学习之(七)MongoDB的聚合查询(两种方式)附项目源码

MongoDB的使用学习之(七)MongoDB的聚合查询(两种方式)附项目源码 先来张在路上…… 铛铛铛……项目源码下载地址:http://files.cnblogs.com/ontheroad_lee/MongoDBDemo.rar 此项目是用M...

Airship
29分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部