文档章节

开源 | 哈佛大学九大自然语言处理开源项目(附论文)

Airship
 Airship
发布于 2017/08/20 22:08
字数 2131
阅读 39
收藏 0
点赞 0
评论 0

选自 Github

机器之心编译

参与:杜夏德、李泽南、吴攀

在这篇文章中,我们盘点了哈佛大学开源的 9 大有关自然语言处理的项目。虽然里面的代码是研究代码(通常还有一些使用的注意事项),但也已经得到了哈佛研究团队之外的产业组织的应用,其相关项目的证书请参阅对应的 repo。

1.Sequence-to-Sequence Learning with Attentional Neural Networks(使用注意神经网络的序列到序列学习)

项目地址:https://github.com/harvardnlp/seq2seq-attn

在带有(可选)注意(attention)的标准 seq2seq 模型的 Torch 实现中,其编码器 - 解码器(encoder-decoder)模型是 LSTM。编码器可以是一个双向 LSTM。此外还能在字符嵌入(character embeddings)上运行一个卷积神经网络然后再运行一个 highway network,从而将字符(而不是输入的词嵌入)作为输入来使用。

该注意模型来源于发表于 EMNLP 2015 大会上的论文《Effective Approaches to Attention-based Neural Machine Translation》。我们使用该论文中的带有输入 - 反馈方式的全局通用注意力模型( global-general-attention model with the input-feeding approach)。输入 - 反馈作为可选项,也可去掉。

其中的字符模型来源于 AAAI 2016 上的论文《Character-Aware Neural Language Models》。

2.Visual Analysis for State Changes in RNNs(用于 RNN 中状态变化的视觉分析)

项目地址:https://github.com/HendrikStrobelt/lstmvis

循环神经网络(RNN),尤其是 LSTM,是学习一个隐藏其序列输入表征的密集黑箱测试的序列处理的有效工具。对这些模型有更好理解的研究者已经研究了隐藏状态表征中随时间发生的变化,并注意到有些可以解释但噪声明显的模式。

我们提出的 LSTMV 是用在 RNN 中的一款视觉分析工具,其关注的重点是理解这些隐藏的状态动态。这个工具允许用户选择一个关于局部状态变化的假设输入范围,以将这些状态变化匹配到一个大数据库中类似的模式上,并将这些结果与它们的域(domain)的结构注释(structural annotations)进行比对。我们为这个工具提供了数据来分析数据集上特定的隐藏状态属性,包括嵌套、短语结构、和弦进程(chord progressions)并展示如何使用这个工具为进一步的统计分析来隔离模式。

3.CNN for Text Classification(用于文本分类的 CNN)

项目地址::https://github.com/harvardnlp/sent-conv-torch

这个代码用 GPU 在 Torch 中实现了 Kim(2014)的句子卷积代码。它复制了现有数据库中的结果,并允许在任意其它的文本数据库上训练模型。

4.Im2Markup

项目地址:https://github.com/harvardnlp/im2markup

在最近图像字幕生成和光学字符识别(OCR)研究进展的基础上,我们提出了一个通用的基于深度学习的系统来将图像反编译成标识性置标语言(presentational markup)。虽然这个任务在 OCR 中已经得到了充分研究,但是我们用的是完全不同的数据驱动的方法。我们的模型不需要任何潜在的标记语言知识,仅在真实世界的样本数据中进行端到端(end-to-end)的训练即可。这个模型实现了一个卷积网络,该网络将文本和布局识别(text and layout recognition)与一个基于注意的神经机器翻译系统串联起来。为了训练和评估这个模型,我们引入了一个与 LaTeX 标记语言配对的经过了真实世界渲染的数学表达式的新数据库,以及一个与 HTML 代码片段配对的网页的合成数据库。试验结果显示该系统在两个数据集的精确标记生成上非常有效。而一个标准特定域的 LaTeX OCR 系统的精确度能达到 25%,我们的模型准确再现了样本中 75% 的渲染的图像。

5.ABS: Abstractive Summarization  

项目地址:https://github.com/harvardnlp/NAMAS

该项目包含了来自以下论文的 Abs. 神经抽象摘要系统(neural abstractive summarization system)。

这里发布的代码可以:

提取摘要数据集

训练神经摘要模型

用 ROUGE 构建评估集

调试提取的特征

6.LSTM Character-Aware Language Model

项目地址:https://github.com/yoonkim/lstm-char-cnn

代码来自 AAAI 2016 论文《Character-Aware Neural Language Models》。

这是一个仅建立在字符输入上的一个神经语言模型(NLM)。预测还是在词水平上进行。当输入一个 LSTM 循环神经网络语言模型(RNN-LM)时,该模型在字符上启用了一个卷积神经网络(CNN)。也可选择让该 CNN 的输出通过一个 Highway Network,这能提升表现。

多数基础代码来源于 Andrej Karpathy 的字符 RNN 实现:https://github.com/karpathy/char-rnn。

7.Neural Coreference Resolution (神经指代消解)

项目地址:https://github.com/swiseman/nn_coref

神经指代模型(Neural Coref Models),在论文 Learning Global Features for Coreference Resolution(Sam Wiseman, Alexander M. Rush, and Stuart M. Shieber, NAACL 2015)和 Learning Anaphoricity and Antecedent Ranking Features for Coreference Resolution(Sam Wiseman, Alexander M. Rush, Stuart M. Shieber, and Jason Weston. ACL 2015)中有所描述。

8.PAD: Phrase-structure After Dependencies  

项目地址:https://github.com/ikekonglp/PAD

PAD 是一款免费软件;你可以遵照由 Free Software Foundation 公布的 GNU 宽通用公共许可来修改 / 重发它;也可以二版的许可,或者后面其他版本的许可(看你自己的选择)。

发布 PAD 是希望它能变得有用,但是我们并不担保;

你应该会收到一份连同这个程序的 GNU 通用公共许可证;如果没有,写信给 Free Software Foundation,地址是 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA。

目标:

依存分析器(dependency parsers)快速、精确,并可以产生易于解释的结果,短语结构分析虽然很便捷但在很多语言处理任务中需要输入。

该 PAD 分析器能产生依存分析后的词组(phrases-after-dependencies)。给它依存分析的输出,它将会产生优化的约束短语结构分析。

9. 安卓系统中的神经机器翻译

项目地址:https://github.com/harvardnlp/nmt-android

基于 Sequence-to-Sequence Learning with Attentional Neural Networks 项目: http://github.com/harvardnlp/seq2seq-attn。和一篇文献:

http://www.people.fas.harvard.edu/~yoonkim/data/emnlp_2016.pdf

神经机器翻译(NMT)在翻译中提供了统计方式之外的另一种方式,同时也更加简便。然而,如果想要达到有竞争力的表现,神经机器翻译模型会变得非常巨大。本论文中我们考虑了将知识提炼(knowledge distillation)方式(Bucila 等人,2006;Hinton 等人,2015)加入机器神经翻译中,以解决其体量问题,这种方式已在其他领域中被证明能够成功减小神经模型的尺寸。我们证明了适用于词级预测的标准知识提炼方式在神经机器翻译中是有效的,同时也介绍了两种新的序列级知识提炼方式,它们可以进一步提升性能。令人有些惊讶的是,这些方式可以消除对定向搜索(beam search)的需求(即使应用在原始教师模型(teacher model)上)。我们最好的学生模型(student model)在性能稍有损失的情况下运行速度比最好的教师模型速度快 10 倍。它同时大大优于没有知识提炼的基准模型,在贪婪解码(greedy decoding)/ 定向搜索中达到 4.2/1.7 的 BLEU。当学生模型应用了权重修剪(weight pruning)的知识提炼结果时,其参数相比教师模型小 13 倍,同时 BLEU 减少 0.4。

教程

如果你是 Torch 新手,我们准备了 NLP 机器学习研究生班 CS287 的一套教材。这些笔记是由 Sam Wiseman 和 Saketh Rama 准备的,你可以由此获得对 Torch 核心方面的基本了解,接着快速转向一些高级的话题,比如内存使用、神经网络模块的细节和循环神经网络。

© 本文由机器之心编译,转载请联系本公众号获得授权

✄ ------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@almosthuman.cn

投稿或寻求报道:editor@almosthuman.cn

广告 & 商务合作:bd@almosthuman.cn

本文转载自:http://www.myzaker.com/article/580854347f780bad33009cf4/

共有 人打赏支持
Airship
粉丝 34
博文 852
码字总数 18996
作品 0
南京
高级程序员
热点 | 六月Github热点项目库总结

【磐创AI导读】:Github是全球最大的开源代码社区。接下来磐创AI将为大家介绍几个六月Github热点项目库。 目录 介绍 Github热点项目库 Facebook's DensePose NLP Progress MLflow Salesforc...

技术小能手
07/12
0
0
本周 Github 精选:多款超赞 AI 开源项目,等你来 Star!

在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。 点击本文底部的「阅读原文」...

c9yv2cf9i06k2a9e
04/18
0
0
资源 | DMLC团队发布GluonCV和GluonNLP:两种简单易用的DL工具箱

  选自Gluon   机器之心编译   参与:思源、李亚洲      近日,DMLC 发布了简单易用的深度学习工具箱 GluonCV 和 GluonNLP,它们分别为计算机视觉和自然语言处理提供了顶级的算法实...

机器之心
04/26
0
0
知道这些用于数据科学和机器学习的GitHub存储库和Reddit主题吗?

GitHub和Reddit都是比较有趣的平台,在这里,我不仅学习了数据科学的一些最佳应用,而且还了解数据科学家们是如何编程的。 一直以来,GitHub都是开发人员之间进行协作的终极平台,并且,我们...

【方向】
06/20
0
0
NLP 领域的 C 位课程!斯坦福 CS224d 中英字幕版重磅上线

今日,斯坦福大学「CS224d:深度自然语言处理课程」中英字幕版重磅上线! 本次翻译的 CS224d (2016-2017)课程视频为斯坦官方开源最新版本,由斯坦福大学教授、 Salesforce 的首席科学家 Ri...

雷锋字幕组
05/16
0
0
百度两论文被 ACL 2018 录用,阅读理解新进展一览 | ACL 2018

雷锋网(公众号:雷锋网) AI 科技评论按:国际自然语言处理顶会 ACL 还有数月即将召开。本届会议共计有 1551 篇论文进入审查阶段(1021 长篇,530 篇短篇),录用率约为 20%。 雷锋网 AI 科技...

奕欣
05/19
0
0
2018图森、AWS和将门联合主办的“首届AI极客训练营”

文/良宵听雨 为什么要办这个训练营? 人工智能正在越来越深刻地改变着人们的生活,也同样在变革着整个人类社会的运行方式。越来越多有梦想的年轻朋友希望更加深入地理解 AI,学习相关的知识,...

良宵听雨
05/23
0
0
当前自然语言处理发展的四个特点

二十一世纪以来,由于国际互联网的普及,自然语言的计算机处理成为了从互联网上获取知识的重要手段,生活在信息网络时代的现代人,几乎都要与互联网打交道,都要或多或少地使用自然语言处理的...

杨尚川
2015/05/25
0
0
CCF NLPCC 2018 自然语言处理与中文计算国际会议

CCF 自然语言处理与中文计算国际会议 (NLPCC) 是由中国计算机学会主办的中文信息技术专业委员会年度学术会议,是专注于自然语言处理及中文计算领域的国际会议。会议旨在为来自学术界、工业界...

奕欣
04/13
0
0
JAVA自然语言处理NLP工具包

Java自然语言处理 LingPipe LingPipe 是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)...

javaex999
2014/05/05
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

微信小程序Java登录流程(ssm实现具体功能和加解密隐私信息问题解决方案)

文章有不当之处,欢迎指正,如果喜欢微信阅读,你也可以关注我的微信公众号:好好学java,获取优质学习资源。 一、登录流程图 二、小程序客户端 doLogin:function(callback = () =>{}){let ...

公众号_好好学java
34分钟前
0
1
流利阅读笔记28-20180717待学习

“我不干了!” 英国脱欧大臣递交辞呈 雪梨 2018-07-17 1.今日导读 7 月 6 日,英国政府高官齐聚英国首相的官方乡间别墅——契克斯庄园,讨论起草了一份关于英国政府脱欧立场的白皮书。可是没...

aibinxiao
今天
6
0
OSChina 周二乱弹 —— 理解超算排名这个事,竟然超出了很多人的智商

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @-冰冰棒- :分享Ed Sheeran/Beyoncé的单曲《Perfect Duet (with Beyoncé)》 《Perfect Duet (with Beyoncé)》- Ed Sheeran/Beyoncé 手机...

小小编辑
今天
138
7
Android 获取各大音乐平台的真实下载地址

废话 电脑使用谷歌浏览器或者QQ浏览器的时候。。。。。。。说不清楚,还是看图吧 大概意思就是,只要网页上需要播放,只要能播放并且开始播放,这个过程就肯定会请求到相关的音乐资源,然后就...

她叫我小渝
今天
0
0
shell中的函数、shell中的数组、告警系统需求分析

shell中的函数 格式: 格式: function f_name() { command } 函数必须要放在最前面 示例1(用来打印参数) 示例2(用于定义加法) 示例3(用于显示IP) shell中的数组 shell中的数组1 定义数...

Zhouliang6
今天
2
0
用 Scikit-Learn 和 Pandas 学习线性回归

      对于想深入了解线性回归的童鞋,这里给出一个完整的例子,详细学完这个例子,对用scikit-learn来运行线性回归,评估模型不会有什么问题了。 1. 获取数据,定义问题     没有...

wangxuwei
今天
1
0
MAC安装MAVEN

一:下载maven压缩包(Zip或tar可选),解压压缩包 二:打开终端输入:vim ~/.bash_profile(如果找不到该文件新建一个:touch ./bash_profile) 三:输入i 四:输入maven环境变量配置 MAVEN_HO...

WALK_MAN
今天
0
0
33.iptables备份与恢复 firewalld的9个zone以及操作 service的操作

10.19 iptables规则备份和恢复 10.20 firewalld的9个zone 10.21 firewalld关于zone的操作 10.22 firewalld关于service的操作 10.19 iptables规则备份和恢复: ~1. 保存和备份iptables规则 ~2...

王鑫linux
今天
2
0
大数据教程(2.11):keeperalived+nginx高可用集群搭建教程

上一章节博主为大家介绍了目前大型互联网项目的系统架构体系,相信大家应该注意到其中很重要的一块知识nginx技术,在本节博主将为大家分享nginx的相关技术以及配置过程。 一、nginx相关概念 ...

em_aaron
今天
1
1
Apache Directory Studio连接Weblogic内置LDAP

OBIEE默认使用Weblogic内置LDAP管理用户及组。 要整理已存在的用户及组,此前办法是导出安全数据,文本编辑器打开认证文件,使用正则表达式获取用户及组的信息。 后来想到直接用Apache Dire...

wffger
今天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部