文档章节

深度学习中文分词调研

hankcs
 hankcs
发布于 2017/08/10 21:59
字数 296
阅读 16
收藏 0
点赞 0
评论 0
本文由码农场同步,最新版本请查看原文:http://www.hankcs.com/nlp/segment/depth-learning-chinese-word-segmentation-survey.html
深度学习中文分词调研
随着深度学习的普及,有越来越多的研究应用新模型到中文分词上,让人直呼“手快有,手慢无”。不过这些神经网络方法的真实水平如何?具体数值多少?以Sighan05中的PKU数据集为例,真像一些论文所言,一个LSTM-CRF就有96.5%吗?或者像某些工业界人士那样,动辄“基于深度学习的98%准确率”,“99% 的分词成功率”吗?如果数字真的这么好看,那中文分词这个课题几乎没有研究意义了。更何况,中文分词标准难以统一,任何语料库都存在内部标注一致性(inter-annotator agreement)的问题。一些著...

继续阅读码农场 » 深度学习中文分词调研

原文链接http://www.hankcs.com/nlp/segment/depth-learning-chinese-word-segmentation-survey.html


感谢阅读本文,欢迎 查看原文或访问 码农场 获取更多内容

© 著作权归作者所有

共有 人打赏支持
hankcs
粉丝 33
博文 222
码字总数 53918
作品 1
美国
百度深度学习公开课再升级, 「地表最强」嘉宾阵容惊现成都

  短短一个月,百度深度学习公开课已走过北京、深圳和杭州三站,5 月 26 日即将在天府之国成都迎来本季收官站。百度深度学习公开课「一票难求」,此前的报名入选率仅有 20%,能参加的开发者...

机器之心 ⋅ 05/21 ⋅ 0

异构计算加速平台有效满足AI及高性能计算业务需求

近日,致力于提供异构计算加速整体解决方案、业界领先的异构加速和业务卸载方案厂商——杭州加速云信息技术有限公司(简称:加速云)正式启动跨越北京、上海、成都、西安四大城市的 “加速新...

yssycz ⋅ 04/24 ⋅ 0

深度学习模型训练流程

文章作者:Tyan 博客:noahsnail.com | CSDN | 简书 工作中训练了很多的深度学习模型,目前到了上升到方法论的角度来看了。日常工作中有的人可能已经在遵循方法论做事,可能自己没有注意,有...

SnailTyan ⋅ 02/02 ⋅ 0

调研报告:企业看好云端分析,但需加快步伐

全球领先的基于云计算的数据和分析解决方案供应商Teradata天睿(Teradata Corporation,纽交所:TDC)日前委托领先的技术行业市场研究机构Vanson Bourne对全球700家大型跨国企业展开调查。调...

玄学酱 ⋅ 05/01 ⋅ 0

中文分词工具

中文分词工具非常繁多,主要与大家分享其中几个工具,这是本人第一次接触中文分词工具,望轻喷。 中文分词工具: 1、IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。...

阿阿阿阿阿局 ⋅ 2016/05/10 ⋅ 0

Java中文分词组件 - word分词

Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数...

杨尚川 ⋅ 2014/04/29 ⋅ 46

中文分词PHP扩展--MFSOU

一个PHP函数实现中文分词。使分词更容易,使用如下图: mfsou PHP扩展现有两个函数:中文分词函数nnabcfenci();IP地址查询函数nnabcipaddr()。 中文分词使用一个函数直接分词,使中文分词更容...

红薯 ⋅ 2013/11/28 ⋅ 0

中文分词库--Paoding

庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网...

qieqie.wang ⋅ 2008/09/07 ⋅ 4

业界 | 人人都能用的深度学习:当前三大自动化深度学习平台简介

  选自DataScienceCentral   作者:William Vorhies   机器之心编译   参与:Panda      深度学习技术往往比较复杂,从头开发的难度较大,但现在有一些公司提供了能帮助开发者轻...

机器之心 ⋅ 04/28 ⋅ 0

资料搜集:11款开放中文分词引擎大比拼【转】

来自: IT十年 - CSDN博客 链接:http://blog.csdn.net/matthewei6/article/details/50610882 在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交...

强子哥哥 ⋅ 2016/03/08 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

CentOS7克隆后网卡配置问题

首先默认第一台虚拟机网卡信息为: TYPE="Ethernet" BOOTPROTO=static DEFROUTE="yes" PEERDNS="yes" PEERROUTES="yes" IPV4_FAILURE_FATAL="no" #IPV6INIT="yes" #IPV6_AUTOCONF=“yes” #I......

北岩 ⋅ 55分钟前 ⋅ 0

Guava EventBus源码解析

一、EventBus使用场景示例 Guava EventBus是事件发布/订阅框架,采用观察者模式,通过解耦发布者和订阅者简化事件(消息)的传递。这有点像简化版的MQ,除去了Broker,由EventBus托管了订阅&...

SaintTinyBoy ⋅ 今天 ⋅ 0

http怎么做自动跳转https

Apache 版本 如果需要整站跳转,则在网站的配置文件的<Directory>标签内,键入以下内容: RewriteEngine on RewriteCond %{SERVER_PORT} !^443$ RewriteRule ^(.*)?$ https://%{SERVER_NAME......

Helios51 ⋅ 今天 ⋅ 0

Python爬虫,抓取淘宝商品评论内容

作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路 我们就拿“德州扒鸡”...

python玩家 ⋅ 今天 ⋅ 0

MySQL 内核深度优化

MYSQL数据库适用场景广泛,相较于Oracle、DB2性价比更高,Web网站、日志系统、数据仓库等场景都有MYSQL用武之地,但是也存在对于事务性支持不太好(MySQL 5.5版本开始默认引擎才是InnoDB事务...

java高级架构牛人 ⋅ 今天 ⋅ 0

用户登录信息-钉子效果(基于jquery2.0)

本js效果使用jquery2.0,清晰的分解用户登录信息的(钉子效果),该效果直接用在作者网站(www.phpkhbd.com)上。 里面的难点有:定时器,延时。 大致效果如下: 一开始: 鼠标放上去的时候:...

宁哥实战课堂 ⋅ 今天 ⋅ 0

expect

官网:https://core.tcl.tk/expect/index Introduction Expect is a tool for automating interactive applications such as telnet, ftp, passwd, fsck, rlogin, tip, etc. Expect really m......

刀锋 ⋅ 今天 ⋅ 0

为什么要学习Typescript???

简单来说 目前的typescript就是未来的javascript 为什么?? 这要从ECMA-262标准的第4版说起 对了 我们说的ES5 其实是ECMAScript3.1这个替代性建议被扶正了而已... 那么 第4版标准是什么? 看看...

hang1989 ⋅ 今天 ⋅ 1

linux安装ipfs

一、下载ipfs # cd /usr/local/ipfs/ # wget https://dist.ipfs.io/go-ipfs/v0.4.15/go-ipfs_v0.4.15_linux-amd64.tar.gz # tar -zxvf go-ipfs_v0.4.15_linux-amd64.tar.gz 二、安装ipfs # ......

八戒八戒八戒 ⋅ 今天 ⋅ 0

jvm程序执行慢诊断手册

生产环境最多的几种事故之一就是程序执行慢,如果是web服务的话,表现就是响应时间长。本文分享,从业多年形成的排查守则。 诊断步骤 系统资源查看 首先是系统资源查看,而且必须是在第一步。...

xpbob ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部