Yaha分词库

原创
2013/08/19 10:44
阅读数 2.1K

前言

因为想弄一个小小的电影搜索站,以及想提取某一个QQ技术群聊天的关键字与自动生成关键的聊天记录的摘要,所以研究了不少分词库,以及提取关键字,自动生词,自动摘要等的算法实现。整个研究过程非常有意思,其中的一些小的代码组件可在这里得到:http://www.oschina.net/code/list_by_user?id=1180874

期间在使用Whoosh与一些分词库结合使用的时候,大体不错,但总是出现各种与个人不适应的地方。比如python的结巴分词,感觉这个项目的作者很不错,开发也挺认真,效果也还可以。但在一些share host下加载字典直接超出内存范围,消耗的内存太大;同时测试了HMM模型,感觉只能发现两个两个的词,对新词的发现效果不是很好。从而萌生了想实现一个方便大家去定制的分词库——哑哈分 词

可定制的分词库——Yaha(哑哈)分词

在线测试地址:http://yaha.v-find.com/ 部署于GAE yahademo.appspot.com

Yaha分词主要特点是把分词过程分成了4个阶段,每个阶段都可以让用户加入自己的一些定制,以面向不同的用户需求。这是一个最简单真白的示例:

# -*- coding=utf-8 -*-
import sys, re
from yaha import Cuttor, RegexCutting, SurnameCutting2, SuffixCutting

str = '唐成真是唐成牛的长寿乡是个1998love唐成真诺维斯基'
cuttor = Cuttor()

# Get 3 shortest paths for choise_best
#cuttor.set_topk(3)

# Use stage 1 to cut english and number
cuttor.set_stage1_regex(re.compile('(\d+)|([a-zA-Z]+)', re.I|re.U))

# Or use stage 2 to cut english and number
#cuttor.add_stage(RegexCutting(re.compile('\d+', re.I|re.U)))
#cuttor.add_stage(RegexCutting(re.compile('[a-zA-Z]+', re.I|re.U)))

# Use stage 3 to cut chinese name
#surname = SurnameCutting()
#cuttor.add_stage(surname)

# Or use stage 4 to cut chinese name
surname = SurnameCutting2()
cuttor.add_stage(surname)

# Use stage 4 to cut chinese address or english name
suffix = SuffixCutting()
cuttor.add_stage(suffix)

seglist = cuttor.cut(str)
print ','.join(list(seglist))

#seglist = cuttor.cut_topk(str, 3)
#for seg in seglist:
# print ','.join(seg)

阶段讲解

  1. stage 1是在分句中实现,通过正则可直接将数字或英文单词分成独立的词,生成独立的这些词不再参与下一步的分词。
  2. stage 2在创建有向无环图之前实现,对分句进行预扫描,加入一些可能形成的词,并赋予一定的概率。
  3. stage 3在创建有向无环图期间实现,从字典得到词的概率,或通过一些匹配模式得到可能的词,赋予一定概率。
  4. stage 4在得到有向无环图的最大概率之后(程序实现当中是最短路径),对一些不能成词的单字再继续进行处理;或得到最短的多条路径之后,根据用户的兴趣得到最终的一条路径。若用户有兴趣,可以在这一步实现对词性的分析。

期望

这个Yaha分词,期望它能对搜索,或对文本分析,以及一些博客用户有所帮助。所以计划还会加入关键字提取,文章摘要,新词分现等功能。分词,英文单词,人名发现,地名发现都已经得到实现。其它各种功能会在陆续开发当中,有兴趣的同学可以参与。

展开阅读全文
打赏
1
34 收藏
分享
加载中
余争博主

引用来自“oldcai”的评论

也是一直在用结巴。
您这个有没有做benchmark呀,有数据甚至是对比其他分词速度的数据的话,就太好了,比如内存占用和分词速度。
看了下文档说明,感觉不错,有空试试。

都没有测试过性能。yaha的好处是方便在中小项目当中使用,很适合根据自己的要求去定制分词需求,性能估计会比较一般。
最近一直使用cppjieba,作数据处理的时候,感觉它的速度更快些。但是面对大量的文本需要分词的时候感觉还是不够快,分词还是占用了数据处理的很多时间。把并发处理加到cppjieba里速度应该有几倍+的提升吧,那时候应该够用了。
2013/12/30 15:10
回复
举报
也是一直在用结巴。
您这个有没有做benchmark呀,有数据甚至是对比其他分词速度的数据的话,就太好了,比如内存占用和分词速度。
看了下文档说明,感觉不错,有空试试。
2013/12/29 18:30
回复
举报
余争博主

引用来自“hanbao”的评论

九孔不好看来

不大明白你的意思,对于这句话的分词,不同的配置会有不同的结果。
如果用stage3来发现名字的话,结果是:九,孔,不好,看来
如果用stage4来发现名字的话,结果是:九,孔不好,看来 (会在后期把孔,不好 组合在一起)
2013/08/20 11:28
回复
举报
九孔不好看来
2013/08/20 10:44
回复
举报
更多评论
打赏
4 评论
34 收藏
1
分享
返回顶部
顶部