加载中
[翻译] 在Python中使用LDA处理文本

说明: 原文:http://chrisstrelioff.ws/sandbox/2014/11/13/getting_started_with_latent_dirichlet_allocation_in_python.html 本文包含了上文的主要内容。 关于LDA:LDA漫游指南 使用的p...

2016/02/17 16:10
3.7K
如何实现拼音与汉字的互相转换

基于词库的汉字转拼音 词库中既要包含每个字的拼音,也要包含常用单词/短语的读音。有些字是多音字,所以至少要保存其最常用的读音,不常用的读音多出现在单词/短语里。 好了,词库准备好了,...

2016/02/16 15:01
373
R:在Ubuntu14.04 安装R

https://www.digitalocean.com/community/tutorials/how-to-set-up-r-on-ubuntu-14-04 设置APT $ sudo sh -c 'echo "deb http://cran.rstudio.com/bin/linux/ubuntu trusty/" >> /etc/apt/s...

2016/02/06 17:28
98
什么是用户画像?

用户画像,就是“用户标签”,用一系列的标签去描述某个用户。 基于用户画像,可以实现用户分析、物品推荐等。 下图是来自如何构建用户画像,很形象: 资料: 永洪BI:手把手教您搞定用户画像...

2015/11/09 23:31
230
simhash算法

simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字...

2015/11/01 19:25
120
贝叶斯定理

B先发生,A后发生。

2015/10/11 17:32
102
Python Tools for Machine Learning

原文:https://www.cbinsights.com/blog/python-tools-machine-learning/ Python is one of the best programming languages out there, with an extensive coverage in scientific computin...

2015/10/09 14:55
230
[转载] 知识图谱——机器大脑中的知识库

原文:http://book.thunlp.org/knowledge_graph/ 第二章 知识图谱——机器大脑中的知识库 Published by liuzy on July 6, 2015 作者:刘知远(清华大学);整理:林颖(RPI) 版权所有,转载...

2015/09/21 14:49
3K
笔记:基于标签的推荐系统、基于图的推荐算法、PersonalRank

原文:http://www.ituring.com.cn/article/786 基于图的推荐算法,作者将TopicRank改称为PersonalRank,并用到个性化推荐中。用到的图只涉及到了用户和物品,没涉及标签。 若用户a对物品b评分...

2015/05/26 19:15
363
拉格朗日乘数法

以2元函数为例: 已知 φ(x,y) = 0,求 z = f(x, y)的最大值或者最小值。 使用拉格朗日乘数法,首先构造一个辅助函数: F(x, y, λ) = f(x, y) + λ*φ(x, y) 之后,解下面的方程组: 由于方程...

2015/01/03 12:58
39
贝叶斯估计和最大后验估计

使用贝叶斯估计计算参数比较困难,所以简化为最大后验估计。 最大后验估计(MAP): http://www.cnblogs.com/liliu/archive/2010/11/24/1886110.html 给出了MAP的解释,并举了一个例子。认为最...

2015/01/03 11:48
92
最大似然估计的一个示例

最大似然估计(又“极大似然估计”,Maximum Likelihood Estimate): 最大似然估计和最小二乘法怎么理解? http://www.zhihu.com/question/20447622 这个题目来自考研数学全书。 已知总体X...

2015/01/03 11:15
46
ICTCLAS 汉语词性标注集

ICTCLAS 汉语词性标注集 汉语文本词性标注标记集 Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。 a 形容词 取英语形容词adjective的第1个字母。 ad 副形词 直接作状语的形容...

2014/12/05 11:34
2K
相似度计算方法

在刘军编写的《Hadoop大数据处理》截了两张图:

2014/12/02 09:47
88
使用TextRank算法为文本生成关键字和摘要

TextRank算法基于PageRank,用于为文本生成关键字和摘要。

巴拿赫-塔斯基定理

巴拿赫-塔斯基定理(或称豪斯多夫-巴拿赫-塔斯基定理,又名“分球怪论”),是一条数学定理。1924年斯特凡·巴拿赫和阿尔弗雷德·塔斯基首次提出这一定理。这一定理指出在选择公理成立的情况...

2014/11/04 10:56
578
随机数的实现原理

http://en.wikipedia.org/wiki/Random_number_generation The GLIBC random number generator讲了GLIBC中random()函数的实现原理,并给出了一段代码: #include <stdio.h> #define MAX 1000...

2014/10/12 15:17
210
布丰投针问题和蒙特卡洛方法

http://zh.wikipedia.org/wiki/%E5%B8%83%E8%B1%90%E6%8A%95%E9%87%9D%E5%95%8F%E9%A1%8C http://zh.wikipedia.org/wiki/%E8%92%99%E5%9C%B0%E5%8D%A1%E7%BE%85%E6%96%B9%E6%B3%95 http://ba...

2014/10/11 22:58
90
如何生成符合高斯分布的数据集

在网上搜了下,维基百科中给了多种方法。 http://en.wikipedia.org/wiki/Normal_distribution#Generating_values_from_normal_distribution 如何生成随机数: http://en.wikipedia.org/wiki...

2014/10/11 21:53
442
R: Hierarchical Cluster 层次聚类

构造数据: > dataset = matrix(c(1,2, + 1.2,2, + 8,9, + 0.9,1.8, + 7,10, + 8.8,9.2), nrow=6, byrow=T) > dataset [,1] [,2] [1,] 1.0 2.0 [2,] 1.2 2.0 [3,] 8.0 9.0 [4,] ...

2014/10/05 12:05
4.5K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部