文档章节

语言模型:马尔可夫模型

AllenOR灵感
 AllenOR灵感
发布于 2017/09/10 01:24
字数 936
阅读 1
收藏 0

该系列将描述一些自然语言处理方面的技术,完整目录请点击这里


这个教程,我们将要讨论语言模型的关键问题:给定一个语料库,我们如何学习到概率 p? 在这一部分,我们将利用马尔科夫模型来解决这个问题。

1.1 马尔科夫模型对于确定长度的序列问题

考虑一个随机变量序列,X1, X2, X3, ....,Xn。每个变量是有限集合 V中的任何值。我们假设,这个序列是一个确定长度的序列,长度为 n(比如,n = 100)。在下一节中,我们将介绍实现如何在 n 也是随机变量的情况下,来解决语言模型的问题。

那么我们的目标就是:当 n ≥ 1,xi ∈ V for i = 1,2, ..., n时,我们需要求的序列 x1, ...,xn 的联合概率:


序列 x1, x2, ..., xn 的可能组成形式将达到 |V|^n 次,这是一个非常大的组合,如果我们直接采用上面的联合概率来计算,那么将是一个非常庞大的计算模型,所以我们需要构建一个更加压缩性的模型。

接下来,我们来介绍第一个压缩模型 —— 一阶马尔科夫模型,我们做出如下假设,这将大大简化模型的复杂度:


在第一步等式 1.1 中,这是链式法则推导得出的,任何的概率分布 P(X1 = x1 . . . Xn = xn) 都可以被写成这种形式。因此,在这一步中我们没有任何的假设条件。但在等式的第二步,我们进行了一些假设,具体形式如下:


这就是一阶马尔科夫假设。我们假设序列的第 i 个变量只依赖于它前一个变量。更正式的,我们假设 Xi 独立于 X1, X2, ..., Xi-2,只依赖于 Xi-1。

接下来,我们介绍第二个压缩模型 —— 二阶马尔科夫模型,它是构成 trigram 语言模型的基础。二阶马尔科夫模型有一个稍微弱一点的假设,即我们假设每一个字只依赖于它前面的两个字,具体方程如下:


因此,我们可以将整个序列的概率写成:


为了方便,我们假设 x0 = x-1 = ,其中 是句子中的一个特殊符号 start

1.2 马尔科夫模型用于长度可变序列

在上一部分中,我们假设序列的长度是确定的 n 。然而,在很多的应用中,序列的长度都是会发生变化的。也就是说,长度 n 是一个可变量。有很多种方法可以对可变长度序列进行建模,但在本节中,我们介绍一种语言模型的最常用方法。

这个方法非常简单:我们假设句子中的第 n 个字是 Xn,并且这个字是一个特殊符号 STOP ,这个符号只会出现在序列的最后。我们使用与以前完全相同的假设:比如,我们使用二阶马尔科夫假设,那么我们可以得到:


我们假设一个二阶马尔科夫过程,在每个步骤中,我们都生成一个 xi 的概率分布,如下:


其中,xi 可以是 V 中的其中一个元素,也可以是最后一个特殊符号 STOP。如果我们计算到最后一个符号 STOP,那么就代表序列的结束。

更加正式的,句子生成的过程如下:


因此,我们现在有一个生成不同长度序列的模型了。

本文转载自:http://www.jianshu.com/p/e02f5814e189

共有 人打赏支持
AllenOR灵感
粉丝 11
博文 2635
码字总数 83001
作品 0
程序员
私信 提问
图模型和概率模型工具包 - pomegranate

pomegranate 是基于 Python 的图模型和概率模型工具包,它使用 Cython 实现以加快反应速度。它源于 YAHMM,可实现快速、高效和极度灵活的概率模型,如概率分布、贝叶斯网络、混合隐马尔可夫模...

匿名
01/11
0
0
数学之美札记:隐含马尔可夫模型

隐含马尔可夫模型是一个数学模型,它被认为是解决大多数自然语言处理问题最为快速、有效的方法。它成功的解决了复杂的语音识别、机器翻译等问题。 人类信息交流的发展贯穿了人类的进化和文明...

Realfighter
2015/06/03
0
0
资源 | Python上的图模型与概率建模工具包:pomegranate

  选自GitHub   机器之心编译   参与:路雪      近日,pomegranate 的作者宣布发布新版本 pomegranate v0.9.0。新版本为概率分布、k 均值、混合模型、隐马尔可夫模型、贝叶斯网络...

机器之心
01/10
0
0
DeepLearning笔记: 语言模型和 N-gram

语言模式是自然语言处理的一个基础概念。我们可以从语料中得到「语言模型」—— 即句子的概率,可用于: 发现错别句子 发现新短语 生成句子(如模仿汪峰写歌) 机器怎样理解自然语言呢?有两...

Kidult
01/02
0
0
基于主动学习的伪原创句法识别研究

公司目前在进行的一个项目,这里整理一些资料与大家共同学习,基于主动学习的伪原创句法识别研究。 1语料库知识?具有一定结构,代表性,并且可以通过计算机程序检索并具有一定大小的语料库集...

i_like_cpp
03/28
0
0

没有更多内容

加载失败,请刷新页面

加载更多

追加字节能优化性能

这种方式看起来很神奇,单如果深入理解处理器架构就能理解其中的奥秘。让我们先来看看LinkedTransferQueue这个类,它使用一个内部类型来定义队列的头队列Head和尾节点tail,二这个内部类Pad...

无知的小狼
18分钟前
0
0
性能优化(JVM概念及配置)

虚拟机组成 一次编写,到处运行 Java虚拟机是对操作系统的模拟,隔离差异 2018编程语言排行榜 一个复杂的构架 虚拟机的内部概念 运行原理 编译器,解释器执行流程 内存分配-线程模型 栈帧模型...

这很耳东先生
25分钟前
2
0
Scala之初步认识与环境准备

1. 了解 Scala 1.1. 什么是 Scala Scala 是 Scalable Language 的简写,是一门多范式的编程语言。 Scala设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚...

飞鱼说编程
46分钟前
4
0
Vue项目分环境打包的实现步骤

在项目开发中,我们的项目一般分为开发版、测试版、Pre版、Prod版。Vue-cli的默认环境一只有dev和prod两个,之前每次要发布测试版或Pre版都是修改了源码中API地址后打包,这样很麻烦。如果能...

peakedness丶
46分钟前
6
0
vue+lowdb+express

搭建流程: 1.安装Node.js; 2.安装npm; 3.安装Express; 搭建流程 npm install -g express 安装 express 生成器 npm install -g express-generator 查看是否安装成功,随便输的一个命令...

Js_Mei
51分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部