加载中
也谈 机器学习到底有没有用 ?

今天看到@52CS 文字化了@老师木谈机器学习的一系列文章,其中有一篇我很感兴趣的文章《机器学习有没有用?》,文字版连接:http://php-52cs.rhcloud.com/?p=87 作为一个机器学习爱好者,也想...

2014/06/12 11:53
324
LDA主题聚类学习小结

最近学习了LDA Topic聚类算法,里面涉及到许多概率论的知识,需要回过头去学习,这里做个小结,方便记忆,同时也希望能把它讲明白。 LDA模型算法简介: 算法 的输入是一个文档的集合D={d1, ...

KMP子字符串查找算法分析与实现

子字符串查找,是程序设计的一个基本且普遍的问题。通常情况下子字符串查找不需要特别的设计,一是由于执行的次数不多,二是查找字符串一般也较短,所以不会形成性能的瓶颈;但如果你的程序里...

智能推荐系统开发中的十个关键注意点

智能推荐系统开发中的十个关键注意点 作者:陈运文 博士,盛大智能推荐团队负责人 亚马逊的CEO Jeff Bezos曾经说过,他的梦想是“如果我有100万个用户,我就要为他们做100万个亚马逊网站”。...

Twitter Storm集群搭建小结

最近自己尝试搭建了一下Twitter Storm的集群,参考了很多网友的博客,特别是徐明明的;这里只对自己搭建时的过程和所遇到的问题做一个小总结,方便查阅。 Storm是Twitter开源的一个实时计算框...

海量数据的二度人脉挖掘算法(Hadoop 实现)

原创博客,转载请注明:http://my.oschina.net/BreathL/blog/75112 最近做了一个项目,要求找出二度人脉的一些关系,就好似新浪微博的“你可能感兴趣的人” 中,间接关注推荐;简单描述:即你...

Java 数据结构-堆实现

堆的定义:有如下性质的完全二叉树:任意节点X所处的项的关键字大于或等于以X为根的子数中的所有节点出的项的关键字。 意义在于,在数据结构中,其常常被用作优先级队列的结构,其意义是每次...

JDBC读取MySQL的BLOB类型

今天写了个SQL查数据库,需要根据id分组,然后将同一分组中某几列的值都平铺开来,网络上查了下,MySQL中的 GROUP_CONCAT 函数,还是很好用的,SQL 大致写成如下: select `id` , GROUP_CONC...

2012/06/21 23:12
8.8K
推荐系统中协同过滤算法实现分析

原创博客,欢迎转载,转载请注明:http://my.oschina.net/BreathL/blog/62519 最近研究Mahout比较多,特别是里面协同过滤算法;于是把协同过滤算法的这个实现思路与数据流程,总结了一下,以...

推荐系统思考小结(基于Mahout)

最近一直学习Mahout和推荐引擎相关的知识,一直想搞清楚,什么样的推荐系统的架构才是合理,既能对海量数据进行复杂运算,又能及时响应做出推荐。在网上发现一篇对推荐系统结构讲解的很好的文...

实战Mahout聚类算法Canopy+K-means

Mahout是Apache的顶级开源项目,它由Lucene衍生而来,且基于Hadoop的,对处理大规模数据的机器学习的经典算法提供了高效的实现。其中,对经典的聚类算法即提供了单机实现,同时也提供了基于h...

违禁词过滤完整设计与优化(前缀匹配、二分查找)

可能不止在天朝,绝大多数网站都会需要违禁词过滤模块,用于对不雅言论进行屏蔽;所以这个应该算是网站的基础功能。大概在去年的时候我开发过这个功能,当时用6600+(词数)的违禁词库,过滤2...

基于数组的二叉查找树 Binary Search Tree (Java实现)

二叉查找树 二叉查找树是一种支持动态查询的数据结构,所谓动态查寻结构:即在当数据集合内容发生改变时,集合内数据的排列组合不用重新构建。这样的数据结构在查询时需要不断变动的场景中是...

策略模式、上下文与内部类的思考

策略模式简介 策略模式一直程序开发中,最常用的模式之一;它的功能就是定义了一系列的算法,这些算法定义着公共的接口,所以它们之间可以相互替换。这使得我们在开发过程中,若有新的策略需...

Lucene打分规则与Similarity模块详解

搜索排序结果的控制 Lucnen作为搜索引擎中,应用最为广泛和成功的开源框架,它对搜索结果的排序,有一套十分完整的机制来控制;但我们控制搜索结果排序的目的永远只有一个,那就是信息过滤,...

学习开源推荐引擎Mahout中的刷新数据的设计

我们的系统中的数据可以以这种方式将数据大致分为两类(个人观点,欢迎指点),一类是变化的数据,一类的非变化的数据;变化的数据:每次被访问时,需要重新读取(暂时撇开缓存不考虑),他们大多...

2012/03/18 15:40
2.1K
自己实现文本相似度算法(余弦定理)

最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 Blog写的非常好,受益匪浅...

Lucene相似搜索组件MoreLikeThis原理与代码分析

MoreLikeThis 是 Lucene 的一个捐赠模块,为其Query相关的功能提供了相当不错扩充。MoreLikeThis提供了一组可用于相似搜索的接口,已方便让我们实现自己的相似搜索。 什么是相似搜索: 相似搜...

Java 实现样本方差的计算

在一些统计或者排序的算法中,常常要用到样本方差这个东西,来判断一组数据的离散程度。 这是样本方差的公式: 然而,在计算机编程中,往往需要计算运行方差(running variance),因为样本的...

Apache Mahout中推荐算法Slope one源码分析

关于推荐引擎 如今的互联网中,无论是电子商务还是社交网络,对数据挖掘的需求都越来越大了,而推荐引擎正是数据挖掘完美体现;通过分析用户历史行为,将他可能喜欢内容推送给他,能产生相当...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部