OSCHINA博文抄袭检查

比如我写了一篇文章:“使用Java8实现自己的个性化搜索引擎”,我想知道有哪些网站转载了我的文章,我该怎么办呢?

Java分布式中文分词组件word分词v1.2发布

Java分布式中文分词组件word分词v1.2发布

中文分词算法 之 词典机制性能优化与测试

中文分词的速度能有多快?120万字符/秒。词典机制的优化很重要,且看慢慢道来......

中文分词算法 之 基于词典的全切分算法

中文分词算法 之 基于词典的全切分算法

互联网时代下的合作治理机制及其应用:以开源软件项目为例

互联网时代下的合作治理机制及其应用:以开源软件项目为例

一种使用随机抽样梯度下降算法来预估词汇量的方法

一种使用随机抽样梯度下降算法来预估词汇量的方法

计算ITEYE博文在百度的收录与排名情况

计算ITEYE博文在百度的收录与排名情况

2015/04/04 04:00
176
计算OSCHINA博文在百度的收录与排名情况

计算OSCHINA博文在百度的收录与排名情况

2015/04/03 16:49
451
中文分词算法 之 基于词典的正向最大匹配算法

基于词典的正向最大匹配算法,算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。随着词典越来越大,算法的时空复杂性怎么权衡呢?

Java开源项目cws_evaluation:中文分词器分词效果评估

想知道最常用的9大Java中文分词是哪些吗? 想凑凑热闹看看分词效果大PK吗?

最频繁访问驻留缓存算法

在搜索系统中,如何缓存搜索最频繁的1000个搜索结果?自定制的精准短文本搜索服务项目代码 本文利用了ConcurrentHashMap和AtomicLong实现了线程安全且支持高并发的最频繁访问驻留缓存算法,除...

2016/07/18 16:06
735
自动更改IP地址反爬虫封锁,支持多线程

ADSL拨号上网使用动态IP地址,每一次拨号得到的IP都不一样,所以我们可以通过程序来自动进行重新拨号以获得新的IP地址,以达到突破反爬虫封锁的目的。

APDPlat中的用户密码安全策略

互联网时代,安全是永恒的主题,威胁无处不在,哪怕是在企业内网。

Ubuntu上安装HADOOP多机完全分布式集群

Ubuntu上安装HADOOP多机完全分布式集群

如何选择使用字符串还是数字呢?

如何选择使用字符串还是数字呢?

2015/08/31 16:17
5.9K
七大自然语言处理领域的世界一流公司

七大自然语言处理领域的世界一流公司

2015/05/25 15:43
3.2K
一种利用ngram模型来消除歧义的中文分词方法

一种利用ngram模型来消除歧义的中文分词方法

分布式内存文件系统:Tachyon

Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存储在Tachyon里的文件。

没有更多内容

加载失败,请刷新页面