文档章节

斯坦福NLP笔记49 —— Supervised Relation Extraction

陈清扬
 陈清扬
发布于 2014/07/20 17:47
字数 591
阅读 342
收藏 0

上一节说了手工建立模式的过程,以及其优缺点,这一节该讲更通用的监督学习了。

教授首先提到在监督学习中判断实体关系时往往采用两个分类器,第一个用于判断两个实体(entity pairs)是否有任何可能存在的关系(whatever related),一个完全的二元分类。然后再对确实存在关系的实体对进行处理,找出特征训练等。

这样做的原因在于:

绝大多数实体对都是没有任何关系存在的,这样分开可以提高分类器的速度。

假如我们依旧采用ACE定义的那些关系:

那么给出这样的一个例句,实体之间可能存在的关系就是上述那17种:

值得说明的是,命名实体识别是关系的抽取的前续步骤,因为实体的类别是进行关系抽取的一个重要特征,下面来看看关系抽取常用的特征有哪些:

词的特征

包括涉及的实体本身,以及他们前面的词或者后面的词

  • headwords就是词的首部,譬如American Airline这个词的首部就是Airline,和中文是相反的

  • bags of words就是这两个实体本身包含的单个词和二元词(bigram)

  • M2:-1就是句子中M2(Tim Wagner)前面的一个词,+1同理

  • 夹在两个实体中间的字符串


实体类型及等级特征

  • 实体的类型,人名等

  • 将两者的类型连接起来,无非也是为了把信息结构化

  • 看实体是Name还是名词还是代词


句子的解析特征

后面的章节会仔细阐述。这里略过。


Gazetteer和trigger词特征

这个有点模式的意思。

综合所有这些特征:


评估

监督学习尤其适用于训练集和测试集是同一类别的东西的情况,如果这两个相差甚远,譬如语法都不同,那就要靠非监督学习或者无监督学习了。

监督学习虽然精准,但是标记海量的训练数据实在是麻烦,这也是清华的NLP实验室常年招收大量实习生的原因。

© 著作权归作者所有

陈清扬
粉丝 5
博文 52
码字总数 23875
作品 0
海淀
私信 提问
Text-CNN、Word2Vec、RNN、NLP、Keras、fast.ai-20180504

本文集仅为收录自己感兴趣、感觉不错的文章与资源,方便日后查找和阅读,所以排版可能会让人觉得乱。内容会不断更新与调整。文中涉及公众号的文章链接可以会失效,知道如何生成永久链接的小伙...

Deserts_X
2018/05/05
0
0
李飞飞又有新动向,斯坦福 AI 实验室由 Christopher Manning 接棒

雷锋网(公众号:雷锋网) AI 科技评论按:11 月 19 日,斯坦福人工智能实验室发推文称,Christopher Manning 成为实验室新负责人,而前负责人李飞飞则将工作阵地转移到「以人为中心的 AI 计划...

丛末
2018/11/20
0
0
斯坦福AI实验室换帅!Christopher Manning接替李飞飞

机器之心报道。 今天,斯坦福 AI 实验室(SAIL)在官方 Twitter 上表示 Christopher Manning 成为新的负责人,而前一任负责人李飞飞负责「以人为中心的 AI 计划」。 看过斯坦福 CS224n 的读者...

机器之心
2018/11/20
0
0
史上最大的实体关系抽取数据集!清华大学自然语言处理团队发布 FewRel

雷锋网 AI 科技评论按,在去年的 EMNLP2018 上,由孙茂松教授领导的清华大学自然语言处理实验室发布了一个大规模精标注关系抽取数据集 FewRel。据了解,这是目前最大的精标注关系抽取数据集。...

王雪佩
03/21
0
0
重磅 | AI 第一高校 CMU 的「神经网络 NLP」课,中英字幕独家上线!

AI 研习社获得官方授权,汉化翻译卡耐基梅隆大学的11-747神经网络自然语言处理(2019春季),今天正式上线中英双语字幕版课程啦! 我们先来一睹为快—— 第一讲 课程介绍 & 使用神经网络做自...

雷锋字幕组
03/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

拥有有趣灵魂的程序员们,程序员访谈(一)

点击上方关注我们,让小care关爱你! 程序员群体一直都是低调多金的代表,而近段时间以来,程序员在网络上除了高薪之外,总是会和屌丝、苦逼、格子衫、没情趣...联系在一起。黑程序员的段子也...

ITCare
今天
14
0
Linux输入法fcitx的安装问题

Fcitx 总共要安装的包如下 fcitxfcitx-binfcitx-config-commonfcitx-config-gtk | fcitx-config-gtk2fcitx-datafcitx-frontend-allfcitx-frontend-gtk2fcitx-frontend-gtk3......

CHONGCHEN
今天
8
0
网络基础

前言: 最近整理一些以前的学习笔记(有部分缺失,会有些乱,日后再补)。 过去都是存储在本地,此次传到网络留待备用。 计算机网络的功能: 1.数据通信; 2.资源共享; 3.增加数据可靠性; 4....

迷失De挣扎
今天
7
0
spring boot升级到spring cloud

1、先升级spring boot 版本到2.1.3 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-dependencies</artifactId> <version>2.1.3.RELEAS......

moon888
今天
12
0
从蓝鲸视角谈DevOps

DevOps源于Development和Operations的组合 常见的定义 DevOps是一种重视“软件开发人员(Dev)”和“IT运维技术人员(Ops)”之间沟通合作的文化、运动或惯例。透过自动化“软件交付”和“架构变...

嘉为科技
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部