前言
因为想弄一个小小的电影搜索站,以及想提取某一个QQ技术群聊天的关键字与自动生成关键的聊天记录的摘要,所以研究了不少分词库,以及提取关键字,自动生词,自动摘要等的算法实现。整个研究过程非常有意思,其中的一些小的代码组件可在这里得到:http://www.oschina.net/code/list_by_user?id=1180874
期间在使用Whoosh与一些分词库结合使用的时候,大体不错,但总是出现各种与个人不适应的地方。比如python的结巴分词,感觉这个项目的作者很不错,开发也挺认真,效果也还可以。但在一些share host下加载字典直接超出内存范围,消耗的内存太大;同时测试了HMM模型,感觉只能发现两个两个的词,对新词的发现效果不是很好。从而萌生了想实现一个方便大家去定制的分词库——哑哈分 词
可定制的分词库——Yaha(哑哈)分词
在线测试地址:http://yaha.v-find.com/ 部署于GAE yahademo.appspot.com
Yaha分词主要特点是把分词过程分成了4个阶段,每个阶段都可以让用户加入自己的一些定制,以面向不同的用户需求。这是一个最简单真白的示例:
# -*- coding=utf-8 -*-
import sys, re
from yaha import Cuttor, RegexCutting, SurnameCutting2, SuffixCutting
str = '唐成真是唐成牛的长寿乡是个1998love唐成真诺维斯基'
cuttor = Cuttor()
# Get 3 shortest paths for choise_best
#cuttor.set_topk(3)
# Use stage 1 to cut english and number
cuttor.set_stage1_regex(re.compile('(\d+)|([a-zA-Z]+)', re.I|re.U))
# Or use stage 2 to cut english and number
#cuttor.add_stage(RegexCutting(re.compile('\d+', re.I|re.U)))
#cuttor.add_stage(RegexCutting(re.compile('[a-zA-Z]+', re.I|re.U)))
# Use stage 3 to cut chinese name
#surname = SurnameCutting()
#cuttor.add_stage(surname)
# Or use stage 4 to cut chinese name
surname = SurnameCutting2()
cuttor.add_stage(surname)
# Use stage 4 to cut chinese address or english name
suffix = SuffixCutting()
cuttor.add_stage(suffix)
seglist = cuttor.cut(str)
print ','.join(list(seglist))
#seglist = cuttor.cut_topk(str, 3)
#for seg in seglist:
# print ','.join(seg)
阶段讲解
- stage 1是在分句中实现,通过正则可直接将数字或英文单词分成独立的词,生成独立的这些词不再参与下一步的分词。
- stage 2在创建有向无环图之前实现,对分句进行预扫描,加入一些可能形成的词,并赋予一定的概率。
- stage 3在创建有向无环图期间实现,从字典得到词的概率,或通过一些匹配模式得到可能的词,赋予一定概率。
- stage 4在得到有向无环图的最大概率之后(程序实现当中是最短路径),对一些不能成词的单字再继续进行处理;或得到最短的多条路径之后,根据用户的兴趣得到最终的一条路径。若用户有兴趣,可以在这一步实现对词性的分析。
期望
这个Yaha分词,期望它能对搜索,或对文本分析,以及一些博客用户有所帮助。所以计划还会加入关键字提取,文章摘要,新词分现等功能。分词,英文单词,人名发现,地名发现都已经得到实现。其它各种功能会在陆续开发当中,有兴趣的同学可以参与。
引用来自“oldcai”的评论
也是一直在用结巴。
您这个有没有做benchmark呀,有数据甚至是对比其他分词速度的数据的话,就太好了,比如内存占用和分词速度。
看了下文档说明,感觉不错,有空试试。
最近一直使用cppjieba,作数据处理的时候,感觉它的速度更快些。但是面对大量的文本需要分词的时候感觉还是不够快,分词还是占用了数据处理的很多时间。把并发处理加到cppjieba里速度应该有几倍+的提升吧,那时候应该够用了。
您这个有没有做benchmark呀,有数据甚至是对比其他分词速度的数据的话,就太好了,比如内存占用和分词速度。
看了下文档说明,感觉不错,有空试试。
引用来自“hanbao”的评论
九孔不好看来
如果用stage3来发现名字的话,结果是:九,孔,不好,看来
如果用stage4来发现名字的话,结果是:九,孔不好,看来 (会在后期把孔,不好 组合在一起)