加载中
北邮人论坛上的两个停用词表

这两个表,来自 http://bbs.byr.cn/#!article/ML_DM/39,一个中文,一个英文。 中文: ? 、 。 “ ” 《 》 ! , : ; ? 啊 阿 哎 哎呀 哎哟 唉 俺 俺们 按 按照 吧 吧哒 把 罢了 被 本 ...

2014/11/26 09:51
640
Async Solr Queries in Python

I frequently hit the wall of needing to work asynchronously with Solr requests in Python. I’ll have some code that blocks on a Solr HTTP request, waits for it to complete, the...

2014/10/02 17:24
34
转载:谈谈BM25评分

原文:http://summerbell.iteye.com/blog/420084 1 什么是BM25 摘录一段wiki BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appeari...

2014/10/02 17:08
92
常见的全文搜索工具

solr 官方网站 http://lucene.apache.org/solr/ Apache Solr Reference Guide http://apache.osuosl.org/lucene/solr/ref-guide/apache-solr-ref-guide-4.10.pdf 使用 Apache Solr 实现更加灵...

2014/10/02 16:21
98
整合Lucene 4.10.1 与IK Analyzer

注意,IK Analyzer需要使用其下载列表中的 IK Analyzer 2012FF_hf1.zip,否则在和Lucene 4.10配合使用时会报错。 我使用 intellij IDEA 12进行的测试。 建立java项目 建立项目HelloLucene,导...

转载:浅谈MMSEG分词算法

转载自:http://blog.csdn.net/pwlazy/article/details/17562927 最近看了下MMSEG分词算法,觉得这个算法简单高效,而且还非常准确 作者声称这个规则达到了99.69%的准确率并且93.21%的歧义能...

2014/10/01 21:36
102
中文分词之IKAnalyzer

下载列表:https://code.google.com/p/ik-analyzer/downloads/list 我下载的是:IKAnalyzer2012_u6.zip 下面讲述一下基本的使用流程: 1、下载后将其解压 解压结果是: IKAnalyzer.cfg.xml内...

2014/10/01 21:09
177
基于大规模语料的新词发现算法

文 / 顾森 对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/...

2014/10/01 17:27
364
结巴分词

结巴分词有多种语言实现的版本,从github的star数量等方面来看,python版本应是最早的一个。 另外,它也具有词性标注等功能。 python版本地址: https://github.com/fxsjy/jieba pyhton2.7安...

2014/10/01 16:25
147

没有更多内容

加载失败,请刷新页面

返回顶部
顶部