文档章节

论文阅读及复现 | Effective Neural Solution for Multi-Criteria Word Segmentation

o
 osc_isezqdgg
发布于 2019/09/18 10:55
字数 430
阅读 7
收藏 0

精选30+云产品,助力企业轻松上云!>>>

主要思想

这篇文章主要是利用多个标准进行中文分词,和之前复旦的那篇文章比,它的方法更简洁,不需要复杂的结构,但比之前的方法更有效。

方法

堆叠的LSTM,最上层是CRF。

最底层是字符集的Bi-LSTM。输入:字符集embedding,输出:每个字符的上下文特征表示。

 

 

得到ht之后, CRF作为推理层。

打分:

local score:

其中 ,,这一项是Bi-LSTM隐层ht和bigram 特征embedding的拼接。

 

 

global score:

 

 

 A是转移矩阵tag yi to tag yj.

 

 

 

 

 

 多标准CWS

在句子开头和结尾加token表明它使用哪一个标准。计算分数的时候再去掉。

训练

 

 

 Y 表示句子X所有可能的 tag sequence。

实验

1. 我们的多标准解决方案是否能够学习异构数据集?

2. 我们的解决方案能否应用于由微小和非正式文本组成的大规模语料库组?

3. 更多的数据,更好的性能?

based on Dynet (Neubig et al., 2017)


动态神经网络框架

数据集

Q1: SIGHAN2005

Q2 3: SIGHAN2008

所有数据集都是通过使用唯一的令牌替换连续的英文字符和数字进行预处理的。对于训练和开发集,行通过标点被分成更短的句子或子句,以便更快地进行批处理。

特别是传统的汉语语料库CityU、AS及CKIP均转换为简体版本,使用流行的中文NLP工具 HanLP2。

 

 复现

1. 

Run following command to prepare corpora, split them into train/dev/test sets etc.:
python3 convert_corpus.py

 

 

 2. 生成pkl文件  pku的

 

 

3. make & train

 

 

 

 

 

 
o
粉丝 0
博文 500
码字总数 0
作品 0
私信 提问
加载中
请先登录后再评论。
深度学习中文分词调研

目录 旧时代的阴影 sequence模型 没有脱离window 无法脱离特征工程 预处理引发争议 Word-based Methods 单词打分 link打分 分词结果得分 训练与解码 质疑 Multi-Criteria Joint Learning 我的...

码农场
2017/08/10
0
0
多标准中文分词 Multi-Criteria-CWS

多标准中文分词 Multi-Criteria-CWS 作者:宋彤彤 自然语言处理(NLP)是人工智能中很重要且具有挑战性的方向,而自然语言处理的第一步就是分词,分词的效果直接决定和影响后续工作的效率。我...

MomodelAI
2019/11/18
1
0
研究NLP100篇必读的论文---已整理可直接下载

100篇必读的NLP论文 100 Must-Read NLP自己汇总的论文集,已更新链接:https://pan.baidu.com/s/16k2s2HYfrKHLBS5lxZIkuw提取码:x7tn This is a list of 100 important natural language p......

osc_0eecv9o0
2019/12/23
1
0
Tensorflow入门教程(二十二)——分割模型中的损失函数

在之前的篇章中我分享过2D和3D分割模型的例子,里面有不同的分割网络Unet,VNet等。今天我就从损失函数这个方向给大家分享一下在分割模型中常用的一些函数。 1、dice_loss 我在之前的文章中用...

陈俊强99
2018/11/01
0
0

没有更多内容

加载失败,请刷新页面

加载更多

使用CSS按比例调整图像大小? [重复] - Resize image proportionally with CSS? [duplicate]

问题: This question already has an answer here: 这个问题在这里已有答案: How do I auto-resize an image to fit a 'div' container? 如何自动调整图像大小以适合“div”容器? 31 ans......

fyin1314
今天
18
0
define()与const - define() vs. const

问题: In PHP, when do you use 在PHP中,何时使用 define('FOO', 1); and when do you use 以及何时使用 const FOO = 1; ? ? What are the main differences between those two? 两者之......

法国红酒甜
今天
26
0
将Node.js升级到最新版本 - Upgrading Node.js to latest version

问题: So, I have Node.js installed and now when I tried to install Mongoosejs I got an error telling me that I don't have the needed version of Node.js (I have v0.4.11 and v0.4......

javail
今天
17
0
等到所有jQuery Ajax请求都完成了吗? - Wait until all jQuery Ajax requests are done?

问题: How do I make a function wait until all jQuery Ajax requests are done inside another function? 我如何让一个函数等到所有jQuery Ajax请求都在另一个函数中完成之后? In short...

富含淀粉
今天
17
0
OSChina 周日乱弹 —— 那么长的绳子,你这是放风筝呢

Osc乱弹歌单(2020)请戳(这里) 【今日歌曲】 @ 巴拉迪维:黑豹乐队的单曲《无地自容》 耳畔突然响起旋律,是那首老歌。中国摇滚有了《一无所有》不再一无所有;中国摇滚有了《无地自容》不...

小小编辑
今天
103
2

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部