文档章节

标记问题:生成模型和噪声通道模型

AllenOR灵感
 AllenOR灵感
发布于 2017/09/10 01:24
字数 962
阅读 1
收藏 0
点赞 0
评论 0

该系列将描述一些自然语言处理方面的技术,完整目录请点击这里


在本节中,我们描述一个重要的监督学习模型。


图 1:命名实体识别作为标记问题。这里有三种不同的实体类型:PERSON,LOCATION 和 COMPANY。对于每个实体类型,我们为该实体引入一个开始标签或者实体延续标签。标签 NA 表示这个词不是一个实体。

接下来,我们来介绍一个用于标记问题的特定生成模型——隐马尔可夫模型。

我们先来确定一些监督学习的符号。我们假设我们的训练集是 (x^(i), y^(i)), ..., (x^(m), y^(m)) ,其中输入的句子序列是 x^(i),对应的标记序列是 y^(i) 。我们假设输入句子序列集合是 X,输出句子序列集合是 Y。那么,我们的任务就是设计一个映射函数 f :X -> Y 。

其中一种定义函数 f(x) 的方法是设计条件模型。在这种方法中,我们定义了一个条件概率模型:


对于任何的 (x, y) 都适用。模型的参数估计可以从训练集中得到。之后,如果我们从测试集中输入 x ,那么模型的输出结果就是:


因此,我们简单地将最有可能的预测标签 y 作为模型的输出。如果我们的模型 p(y | x) 给出的序列标签非常接近于真实条件分布,则函数 f(x) 将非常接近于最优状态。

另一种比较常用的方法是生成模型,在生成模型中,我们不是直接估计条件概率 p(y|x) 的值,而是使用联合概率:


进一步,我们可以将联合概率分解成如下:


然后分别估计 p(y) 和 p(x | y) 模型。这两个模型的具体解释如下:

  • p(y) 是标签 y 的先验概率分布。
  • p(x|y) 是在给定标签 y 的前提下,生成 x 的概率。

我们可以发现,在很多情况下,以这种方式分解模型是非常方便的。例如,语音识别的经典方法是基于这种类型分解的。

给定一个生成模型,我们可以使用贝叶斯规则来导出任何 (x, y) 对的条件概率 p(y|x):


因此,联合概率是非常通用的。

在新的测试用例上面,我们直接使用贝叶斯来处理联合概率模型。给定输入 x ,我们的模型 f(x) 的输出如下:


将联合概率分解为 p(y) 和 p(x | y) 的模型通常被称之为噪声通道模型。直观上来说,当我们看到一个测试例子 x 时,我们假设模型已经产生了两个步骤:首先,以概率 p(y) 选择了一个标签 y;第二,从分布 p(x | y) 生成示例 x。模型 p(x|y) 可以被解释为一个“通道”,它将标签 y 作为其输入,并将其破坏以产生 x 作为输出。我们的任务是根据我们的输入 x,找到最可能的输出标签 y。

最后,总结一下:

  • 我们的任务是去学习一个映射函数:y = f(x),我们假设训练集是 (x^(i), y^(i)) for i = 1, ..., n.
  • 在噪声通道模型中,我们使用训练数据来评估 p(y) 和 p(x|y),这些模型定义了一个联合(生成)模型:

  • 给定一个新的测试样例 x,我们预测标签:

根据输入的 x ,去寻找输出 f(x),这个问题经常被称之为解码问题。

© 著作权归作者所有

共有 人打赏支持
AllenOR灵感
粉丝 10
博文 2139
码字总数 82983
作品 0
程序员
CVPR 2018文章解读——腾讯AI Lab

今天继续上次的话题,来认识下今天的主题——类人化标注:多样性和独特性图像标注。 该主要提出了一种全新的自动图像标注的生成式模型,名为多样性和独特性图像标注(D2IA)。受到人类标注集...

gzq0723 ⋅ 05/16 ⋅ 0

思必驰-上海交大实验室14篇 ICASSP 2018入选论文解读

雷锋网(公众号:雷锋网) AI 科技评论按:为期 5 天的 ICASSP 2018,已于当地时间 4 月 20 日在加拿大卡尔加里(Calgary)正式落下帷幕。ICASSP 全称 International Conference on Acoustics,...

奕欣 ⋅ 05/04 ⋅ 0

华中科大陈俊:详细解读深度学习之星GAN的原理 | 分享总结

雷锋网AI研习社按:生成式对抗网络(GAN)是近两年机器学习领域的新秀,被Yann LeCun称为"过去十年机器学习界最有趣的idea",目前已经得到广泛研究者的关注并且以高频论文数出现在各大顶会上...

杨文 ⋅ 2017/12/14 ⋅ 0

麦克风阵列语音识别——(make machine understand us)

基于麦克风阵列增强的语音识别 基于麦克风阵列增强的语音识别,与单通道语音识别相比麦克风阵列可以利用多通道的语音信息,通过波束形成算法来增强语音信号的质量,这样提取的特征参数能更好...

chenxiao60 ⋅ 2016/06/01 ⋅ 0

TinyOS下TOSSIM仿真CTP

TinyOS的仿真真的是个好东西,跟着下面的步骤做一遍就知道是什么意思了,下面是在Ubuntu下终端的大体演示。 执行命令 TestNetWork文件的源代码里带有仿真需要的文件,待会再解释 。 我在Ubu...

Roam_Co ⋅ 04/27 ⋅ 0

先搞懂这八大基础概念,再谈机器学习入门!

翻译 | AI科技大本营 参与 | 林椿眄 准备好开始AI了吗?可能你已经开始了在机器学习领域的实践学习,但是依然想要扩展你的知识并进一步了解那些你听过却没有时间了解的话题。 这些机器学习的...

dqcfkyqdxym3f8rb0 ⋅ 01/04 ⋅ 0

tf & MNIST 的卷积神经网络

构建的流程也是先加载数据,再构建格络模型,最后训练和评估模型 加载数据 1)定义输入数据并预处理数据。这里,我们首先读取数据 MNIST,并分别得到训练集的 图片和标记的矩阵,以及测试集的图片和...

wyk1823376647 ⋅ 04/13 ⋅ 0

八大基础概念带你入门机器学习!

  准备好开始AI了吗?可能你已经开始了在机器学习领域的实践学习,但是依然想要扩展你的知识并进一步了解那些你听过却没有时间了解的话题。   这些机器学习的专业术语能够简要地介绍最重...

深度学习 ⋅ 01/06 ⋅ 0

八大基础概念带你入门机器学习!

  准备好开始AI了吗?可能你已经开始了在机器学习领域的实践学习,但是依然想要扩展你的知识并进一步了解那些你听过却没有时间了解的话题。   这些机器学习的专业术语能够简要地介绍最重...

中国机器人 ⋅ 01/05 ⋅ 0

基于深层神经网络的语音 增强方法研究

近年来,随着深层神经网络(在语音识别领域的成功应用,给了语音增强任务的研宄人员很多启发。的深层非线性结构可以被设计成一个精细的降噪滤波器。同时基于大数据训练,可以充分学 习带噪语...

chenxiao60 ⋅ 2016/06/07 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

LVM

LVM: 硬盘划分分区成物理卷->物理卷组成卷组->卷组划分逻辑分区。 1.磁盘分区: fdisk /dev/sdb 划分几个主分区 输入t更改每个分区类型为8e(LVM) 使用partprobe生成分区的文件:如/dev/sd...

ZHENG-JY ⋅ 18分钟前 ⋅ 0

彻底删除Microsoft Office的方法

参照此链接彻底删除Office https://support.office.com/zh-cn/article/%e4%bb%8e-pc-%e5%8d%b8%e8%bd%bd-office-9dd49b83-264a-477a-8fcc-2fdf5dbf61d8?ui=zh-CN&rs=zh-CN&ad=CN......

Kampfer ⋅ 33分钟前 ⋅ 0

大盘与个股之间关系

大盘走多:积极出手 顺势加码 大盘走空: 少量出手 退场观望 大盘做头:逆势减码 少量操作 大盘做底 : 小量建仓 小量试单

guozenhua ⋅ 35分钟前 ⋅ 0

Day16 LVM(逻辑卷管理)与磁盘故障小案例

lvm详解 简述 LVM的产生是因为传统的分区一旦分区好后就无法在线扩充空间,也存在一些工具能实现在线扩充空间但是还是会面临数据损坏的风险;传统的分区当分区空间不足时,一般的解决办法是再...

杉下 ⋅ 41分钟前 ⋅ 0

rsync实现多台linux服务器的文件同步

一、首先安装rsync,怎样安装都行,rpm,yum,还是你用源码安装都可以。因为我用的是阿里云的ESC,yum install rsync就ok了。 二、配置rsync服务 1.先建立个同步数据的帐号 123 groupadd r...

在下头真的很硬 ⋅ 55分钟前 ⋅ 0

前端基础(三):函数

字数:1685 阅读时间:5分钟 函数定义 在最新的ES规范中,声明函数有4中方法: -函数声明 -函数表达式 -构造函数Function -生成器函数 1.函数声明 语法: function name([param[, param2 [....

老司机带你撸代码 ⋅ 今天 ⋅ 0

Java虚拟机的Heap监狱

在Java虚拟机中,我是一个位高权重的大管家,他们都很怕我,尤其是那些Java 对象,我把他们圈到一个叫做Heap的“监狱”里,严格管理,生杀大权尽在掌握。 中国人把Stack翻译成“栈”,把Hea...

java高级架构牛人 ⋅ 今天 ⋅ 0

Spring MVC基本概念

只写Controller

颖伙虫 ⋅ 今天 ⋅ 0

微软重金收购GitHub的背后逻辑原来是这样的

全球最大的开发者社区GitHub网站花落谁家的问题已经敲定,微软最终以75亿美元迎娶了这位在外界看来无比“神秘”的小家碧玉。尽管此事已过去一些时日,但整个开发者世界,包括全球各地的开源社...

linux-tao ⋅ 今天 ⋅ 0

磁盘管理—逻辑卷lvm

4.10-4.12 lvm 操作流程: 磁盘分区-->创建物理卷-->划分为卷组-->划分成逻辑卷-->格式化、挂载-->扩容。 磁盘分区 注: 创建分区时需要更改其文件类型为lvm(代码8e) 分区 3 已设置为 Linu...

弓正 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部