文档章节

一种基于词性序列的人名识别方法

杨尚川
 杨尚川
发布于 2015/05/05 20:15
字数 420
阅读 1582
收藏 4

在人名识别:[我, 爱, 杨, 尚, 川] 中,爱、杨、尚都是姓,会有多个识别结果,那么我们如何消歧并选择一个最合理的结果呢?

下面看看人名识别:[我, 爱, 杨, 尚, 川] 的计算机分析过程,此过程的分析程序出自Java分布式中文分词组件 - word分词

人名识别:[我, 爱, 杨, 尚, 川]

识别到人名:爱杨尚
识别到人名:杨尚川
识别到人名:尚川

开始从多个识别结果中选择一个最佳的结果:[[我, 爱杨尚/nr, 川], [我, 爱, 杨尚川/nr], [我, 爱, 杨, 尚川/nr]]

1、开始处理:[我, 爱杨尚/nr, 川]
忽略已经标注过的词:爱杨尚/nr
词序列:[我/r, 爱杨尚/nr, 川/l] 的词性序列:r n l 
长度的负值也作为分值:-3
评分结果:-3

2、开始处理:[我, 爱, 杨尚川/nr]
忽略已经标注过的词:杨尚川/nr
词序列:[我/r, 爱/v, 杨尚川/nr] 的词性序列:r v n 
v n词序增加分值:1
长度的负值也作为分值:-3
评分结果:-2

3、开始处理:[我/r, 爱/v, 杨, 尚川/nr]
忽略已经标注过的词:爱/v
忽略已经标注过的词:我/r
忽略已经标注过的词:尚川/nr
词序列:[我/r, 爱/v, 杨/nr, 尚川/nr] 的词性序列:r v n n 
v n词序增加分值:1
长度的负值也作为分值:-4
评分结果:-3

选择结果:[我/r, 爱/v, 杨尚川/nr]


© 著作权归作者所有

杨尚川

杨尚川

粉丝 1103
博文 220
码字总数 1624053
作品 12
东城
架构师
私信 提问
Java中文分词组件 - word分词

Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数...

杨尚川
2014/04/29
25.1K
56
中文词法分析解决方案 - LAC

中文词法分析(LAC) 中文分词(Word Segmentation)是将连续的自然语言文本,切分出具有语义合理性和完整性的词汇序列的过程。因为在汉语中,词是承担语义的最基本单位,切词是文本分类、情感...

匿名
2018/07/17
3K
1
HanLP中的人名识别分析详解

在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》 关于命名识别的一些问题,可参考下列一些issue: u名字识别的问题 #387 u机构名识别错误 u关于层叠HMM中文实体识别的过程...

左手的倒影
2018/10/29
84
0
HanLP分词命名实体提取详解

HanLP分词命名实体提取详解 分享一篇大神的关于hanlp分词命名实体提取的经验文章,文章中分享的内容略有一段时间(使用的hanlp版本比较老),最新一版的hanlp已经出来了,也可以去看看新版的...

左手的倒影
01/11
85
0
NLP系列学习:命名实体识别(一)

在自然语言处理中,分词,词性标注,命名实体识别和句法情感分析是非常关键的分支,因为最近需要对此有一些应用,便去了解了一下特定领域目前使用的方法以及一些困难,特此进行总结。 命名实...

云时之间
2018/07/24
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Experts say the weaker pound is drawing investors to the UK tech sector

UK tech companies secured a record £5.5bn in foreign investment in the first seven months of this year, research shows. This was more than the amount invested per capita in th......

wowloop
13分钟前
5
0
Add support for Android 9-patch images in BorderImage

The 9-patch image implementation in Qt Quick Controls 1 is an internal implementation detail of the Android style. It cannot handle .9.png image files out of the box, but takes ......

shzwork
18分钟前
4
0
c/c++日期时间处理函数小结

日期时间处理函数: 日期时间转为字符串 strftime/std::put_time 字符串解析成日期时间 strptime/std::get_time 时间结构转换:time_t->tm localtime:time_t->tm 时间结构转换:tm->time_t ...

chuqq
22分钟前
4
0
Apache Flink 进阶入门(二):Time 深度解析

前言 Flink 的 API 大体上可以划分为三个层次:处于最底层的 ProcessFunction、中间一层的 DataStream API 和最上层的 SQL/Table API,这三层中的每一层都非常依赖于时间属性。时间属性是流处...

大涛学长
23分钟前
3
0
创龙基于Xilinx Artix-7系列FPGA处理器

SOM-TLA7是一款由广州创龙基于Xilinx Artix-7系列FPGA自主研发的核心板,可配套广州创龙Artix-7开发板使用。核心板尺寸仅70mm*50mm,采用沉金无铅工艺的10层板设计,专业的PCB Layout保证信号...

Tronlong创龙
29分钟前
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部