文档章节

语言模型:马尔可夫模型

AllenOR灵感
 AllenOR灵感
发布于 2017/09/10 01:24
字数 936
阅读 1
收藏 0
点赞 0
评论 0

该系列将描述一些自然语言处理方面的技术,完整目录请点击这里


这个教程,我们将要讨论语言模型的关键问题:给定一个语料库,我们如何学习到概率 p? 在这一部分,我们将利用马尔科夫模型来解决这个问题。

1.1 马尔科夫模型对于确定长度的序列问题

考虑一个随机变量序列,X1, X2, X3, ....,Xn。每个变量是有限集合 V中的任何值。我们假设,这个序列是一个确定长度的序列,长度为 n(比如,n = 100)。在下一节中,我们将介绍实现如何在 n 也是随机变量的情况下,来解决语言模型的问题。

那么我们的目标就是:当 n ≥ 1,xi ∈ V for i = 1,2, ..., n时,我们需要求的序列 x1, ...,xn 的联合概率:


序列 x1, x2, ..., xn 的可能组成形式将达到 |V|^n 次,这是一个非常大的组合,如果我们直接采用上面的联合概率来计算,那么将是一个非常庞大的计算模型,所以我们需要构建一个更加压缩性的模型。

接下来,我们来介绍第一个压缩模型 —— 一阶马尔科夫模型,我们做出如下假设,这将大大简化模型的复杂度:


在第一步等式 1.1 中,这是链式法则推导得出的,任何的概率分布 P(X1 = x1 . . . Xn = xn) 都可以被写成这种形式。因此,在这一步中我们没有任何的假设条件。但在等式的第二步,我们进行了一些假设,具体形式如下:


这就是一阶马尔科夫假设。我们假设序列的第 i 个变量只依赖于它前一个变量。更正式的,我们假设 Xi 独立于 X1, X2, ..., Xi-2,只依赖于 Xi-1。

接下来,我们介绍第二个压缩模型 —— 二阶马尔科夫模型,它是构成 trigram 语言模型的基础。二阶马尔科夫模型有一个稍微弱一点的假设,即我们假设每一个字只依赖于它前面的两个字,具体方程如下:


因此,我们可以将整个序列的概率写成:


为了方便,我们假设 x0 = x-1 = ,其中 是句子中的一个特殊符号 start

1.2 马尔科夫模型用于长度可变序列

在上一部分中,我们假设序列的长度是确定的 n 。然而,在很多的应用中,序列的长度都是会发生变化的。也就是说,长度 n 是一个可变量。有很多种方法可以对可变长度序列进行建模,但在本节中,我们介绍一种语言模型的最常用方法。

这个方法非常简单:我们假设句子中的第 n 个字是 Xn,并且这个字是一个特殊符号 STOP ,这个符号只会出现在序列的最后。我们使用与以前完全相同的假设:比如,我们使用二阶马尔科夫假设,那么我们可以得到:


我们假设一个二阶马尔科夫过程,在每个步骤中,我们都生成一个 xi 的概率分布,如下:


其中,xi 可以是 V 中的其中一个元素,也可以是最后一个特殊符号 STOP。如果我们计算到最后一个符号 STOP,那么就代表序列的结束。

更加正式的,句子生成的过程如下:


因此,我们现在有一个生成不同长度序列的模型了。

本文转载自:http://www.jianshu.com/p/e02f5814e189

共有 人打赏支持
AllenOR灵感
粉丝 10
博文 2139
码字总数 82983
作品 0
程序员
图模型和概率模型工具包 - pomegranate

pomegranate 是基于 Python 的图模型和概率模型工具包,它使用 Cython 实现以加快反应速度。它源于 YAHMM,可实现快速、高效和极度灵活的概率模型,如概率分布、贝叶斯网络、混合隐马尔可夫模...

匿名 ⋅ 01/11 ⋅ 0

资源 | Python上的图模型与概率建模工具包:pomegranate

  选自GitHub   机器之心编译   参与:路雪      近日,pomegranate 的作者宣布发布新版本 pomegranate v0.9.0。新版本为概率分布、k 均值、混合模型、隐马尔可夫模型、贝叶斯网络...

机器之心 ⋅ 01/10 ⋅ 0

Python上的图模型与概率建模工具包:pomegranate

摘要:近日,pomegranate 的作者宣布发布新版本 pomegranate v0.9.0。新版本为概率分布、k 均值、混合模型、隐马尔可夫模型、贝叶斯网络、朴素贝叶斯/贝叶斯分类器等模型提供模型拟合、结构...

机器之心 ⋅ 01/12 ⋅ 0

DeepLearning笔记: 语言模型和 N-gram

语言模式是自然语言处理的一个基础概念。我们可以从语料中得到「语言模型」—— 即句子的概率,可用于: 发现错别句子 发现新短语 生成句子(如模仿汪峰写歌) 机器怎样理解自然语言呢?有两...

Kidult ⋅ 01/02 ⋅ 0

数学之美札记:隐含马尔可夫模型

隐含马尔可夫模型是一个数学模型,它被认为是解决大多数自然语言处理问题最为快速、有效的方法。它成功的解决了复杂的语音识别、机器翻译等问题。 人类信息交流的发展贯穿了人类的进化和文明...

Realfighter ⋅ 2015/06/03 ⋅ 0

基于主动学习的伪原创句法识别研究

公司目前在进行的一个项目,这里整理一些资料与大家共同学习,基于主动学习的伪原创句法识别研究。 1语料库知识?具有一定结构,代表性,并且可以通过计算机程序检索并具有一定大小的语料库集...

i_like_cpp ⋅ 03/28 ⋅ 0

sphinx语音识别(1)-基本介绍

语音数据的特征 语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成。 image.png image.png 语音识别系统本质上属于模式识别系统的范畴,都包含有特征提取和模板识别...

HappyHorizon ⋅ 2017/08/04 ⋅ 0

n元语法

语言模型 在统计自然语言处理中语言模型是很重要的一块,常用的语言模型是n元语法模型,当然现在比较流行的还有神经网络语言模型。n元语法模型需要额外的平滑处理,而神经网络语言模型则不必...

超人汪小建 ⋅ 2017/11/28 ⋅ 0

数学之美 读书笔记

1.1 统计语言模型 香农(Claude Shannon)就提出了用数学的办法处理自然语言。首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek)。事实证明,统计语言模...

wzz ⋅ 2014/07/22 ⋅ 0

Language Modeling---NLP学习笔记

本栏目来源于对Coursera 在线课程 NLP(by Michael Collins)的理解。课程链接为:https://class.coursera.org/nlangp-001 1. 语言模型定义: Model Representation: V:集合V包含语料中所有...

javaex999 ⋅ 2016/11/08 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

MyBatis四大核心概念

本文讲解 MyBatis 四大核心概念(SqlSessionFactoryBuilder、SqlSessionFactory、SqlSession、Mapper)。 MyBatis 作为互联网数据库映射工具界的“上古神器”,训有四大“神兽”,谓之:Sql...

waylau ⋅ 33分钟前 ⋅ 0

以太坊java开发包web3j简介

web3j(org.web3j)是Java版本的以太坊JSON RPC接口协议封装实现,如果需要将你的Java应用或安卓应用接入以太坊,或者希望用java开发一个钱包应用,那么用web3j就对了。 web3j的功能相当完整...

汇智网教程 ⋅ 46分钟前 ⋅ 0

2个线程交替打印100以内的数字

重点提示: 线程的本质上只是一个壳子,真正的逻辑其实在“竞态条件”中。 举个例子,比如本题中的打印,那么在竞态条件中,我只需要一个方法即可; 假如我的需求是2个线程,一个+1,一个-1,...

Germmy ⋅ 59分钟前 ⋅ 0

Springboot2 之 Spring Data Redis 实现消息队列——发布/订阅模式

一般来说,消息队列有两种场景,一种是发布者订阅者模式,一种是生产者消费者模式,这里利用redis消息“发布/订阅”来简单实现订阅者模式。 实现之前先过过 redis 发布订阅的一些基础概念和操...

Simonton ⋅ 今天 ⋅ 0

error:Could not find gradle

一.更新Android Studio后打开Project,报如下错误: Error: Could not find com.android.tools.build:gradle:2.2.1. Searched in the following locations: file:/D:/software/android/andro......

Yao--靠自己 ⋅ 昨天 ⋅ 0

Spring boot 项目打包及引入本地jar包

Spring Boot 项目打包以及引入本地Jar包 [TOC] 上篇文章提到 Maven 项目添加本地jar包的三种方式 ,本篇文章记录下在实际项目中的应用。 spring boot 打包方式 我们知道,传统应用可以将程序...

Os_yxguang ⋅ 昨天 ⋅ 0

常见数据结构(二)-树(二叉树,红黑树,B树)

本文介绍数据结构中几种常见的树:二分查找树,2-3树,红黑树,B树 写在前面 本文所有图片均截图自coursera上普林斯顿的课程《Algorithms, Part I》中的Slides 相关命题的证明可参考《算法(第...

浮躁的码农 ⋅ 昨天 ⋅ 0

android -------- 混淆打包报错 (warning - InnerClass ...)

最近做Android混淆打包遇到一些问题,Android Sdutio 3.1 版本打包的 错误如下: Android studio warning - InnerClass annotations are missing corresponding EnclosingMember annotation......

切切歆语 ⋅ 昨天 ⋅ 0

eclipse酷炫大法之设置主题、皮肤

eclipse酷炫大法 目前两款不错的eclipse 1.系统设置 Window->Preferences->General->Appearance 2.Eclipse Marketplace下载【推荐】 Help->Eclipse Marketplace->搜索‘theme’进行安装 比如......

anlve ⋅ 昨天 ⋅ 0

vim编辑模式、vim命令模式、vim实践

vim编辑模式 编辑模式用来输入或修改文本内容,编辑模式除了Esc外其他键几乎都是输入 如何进入编辑模式 一般模式输入以下按键,均可进入编辑模式,左下角提示 insert(中文为插入) 字样 i ...

蛋黄Yolks ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部