文档章节

标记问题:介绍

AllenOR灵感
 AllenOR灵感
发布于 2017/09/10 01:19
字数 498
阅读 1
收藏 0

该系列将描述一些自然语言处理方面的技术,完整目录请点击这里


在很多的 NLP 问题中,我们想对两个序列进行建模,词性标注(POS)问题可能是最早也是最有名的一个案例。在词性标注中,我们的目标是建立一个模型,它的输入是一个句子序列,比如:


模型的输出也是一个标签系列,比如:


(其中,D 表示定语,N 表示名词,V 表示动词)。标签序列的长度和输入序列的长度是一样的,也就是说每个词都会得到一个标签。(在本例子中,Dthe 的标签,Ndog 的标签,Vsaw 的标签,等等以此类推。)

我们使用 x1 . . . xn 序列来表示标记模型的输入:我们将这个称之为一个句子。比如上面的例子,我们的长度为 n = 5,其中 x1 = the,x2 = dog,x3 = saw,x4 = the,x5 = cat。我们将使用 y1,....,yn 表示标记模型的输出:我们将这个序列称为标签序列或者状态序列。在上面的例子中,我们有 y1 = D,y2 = N,y3 = V,等等。

这种类型的问题,其中的关键问题就是一个句子序列 x1,....,xn 映射到标签序列 y1,....,yn 。一般,我们将这个问题称为序列标注问题。


图一:标记问题。模型的输入是一个句子,模型的输出是一个标记好的句子,其中句子的每个词都被标记上了一个标签,比如:N 表示名词,V 表示动词,P 表示介词等等。

我们假设,我们有一个训练集:


其中,x^(i) 表示一个句子序列,y^(i) 表示一个标记序列,即:


我们的任务就是在训练集上面学习出一个映射模型,从输入序列映射到标记序列。

本文转载自:http://www.jianshu.com/p/3b902670d8ba

共有 人打赏支持
AllenOR灵感
粉丝 11
博文 2635
码字总数 83001
作品 0
程序员
私信 提问
基于nio的socket编程

io编程中存在两个问题,io是阻塞的,而且保持多个连接的时候需要加入多线程来保持socket连接。这种方式比较浪费资源,因为每个连接都需要一个线程来保持,这在连接比较多的时候是一个浪费的资...

少不读水浒
2016/10/15
20
0
(35讲)垃圾回收算法——标记清除算法

我们之前已经了解了垃圾回收中如何判定对象是垃圾对象的一些常用的算法,那么,我们找到了要回收的对象之后,我们下一步就要对它进行回收了,从本节课开始,我们来了解一下关于垃圾回收的一些...

G_66
昨天
0
0
JFinal后台部署在云服务器的tomcat上,访问失败

@JFinal 波总您好,想跟你请教个问题: 我把一个JFinal写的后台项目部署在云服务器的tomcat上,结果访问失败,提示HTTP Status 404. 部署方法是按照您在博客里介绍的在 webapps 目录之外建目...

南柯三梦
2016/05/13
487
2
谷歌发布 web.dev:Let's build the future of the web

近日谷歌发布了 web.dev Beta 版本,估计这会是一个 Web 开发人员喜爱的新项目。 主页介绍中显示该项目的功能是通过可操作的指导和分析,帮助开发人员学习并将 Web 的现代功能应用到其站点和...

h4cd
2018/11/14
3.2K
0
JVM:这是一份全面 & 详细的 (GC)垃圾收集算法 讲解攻略

前言 不同的内存区域采用不同的垃圾收集算法 而不同垃圾收集算法决定了垃圾收集的效率 & 效果 本文将全面讲解垃圾收集算法,包括标记-清除、复制、标记-整理等,希望你们会喜欢 在接下来的日...

Carson_Ho
2018/10/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Linux下端口转发工具rinetd介绍

linux下简单好用的工具rinetd,实现端口映射/转发/重定向,针对TCP协议,不支持UDP。 官网地址 http://www.boutell.com/rinetd 里面介绍及使用齐全。 使用场景举例: 阿里云内网Redis连接问题...

ouhoo
13分钟前
1
0
Oracle学习日志-5(算数运算符,比较运算符和逻辑运算符)

因为有编程基础,所以对于这一章还是很好理解,只需要注意对NULL的运算。 操作的表格 算数运算符 查询商品名字和商品售价,并商品售价乘2 SELECT product_name,sale_price * 2 AS "sale_pri...

白话
26分钟前
1
0
搜索引擎(Lucene介绍、分词器详解)

Lucene介绍 Lucene简介 最受欢迎的java开源全文搜索引擎开发工具包。提供了完整的查询引擎和索引引擎,部分文本分词引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简...

这很耳东先生
31分钟前
0
0
quartz详细介绍

quartz常用api Scheduler 调度程序交互的主要API。 Job 希望由调度程序执行的组件实现的接口。 JobDetail 用于定义作业的实例。 JobDataMap 可以包含不限量的序列化数据,在job运行的时候可以...

大笨象会跳舞吧
31分钟前
1
0
kotlin使用jackson序列化enum

默认情况下,我们序列化与反序列化enum是它的name,事实上大部分情况下我们需要序列化的是我们自定义的value,那应该怎么做呢? 这种情况下我们就需要@JsonValue与@JsonCreator data class U...

weidedong
35分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部