连击 天
fork: star:
JAVA内存泄漏和内存溢出的区别和联系 1、内存泄漏memory leak : 是指程序在申请内存后,无法释放已申请的内存空间,一次内存泄漏似乎不会有大的影响,但内存泄漏堆积后的后果就是内存溢出。 ...
主成分分析PCA:设法将原来具有一定相关行(比如 P个指标)的指标 重新组合成一组新的互相无关的综合指标来代替原来的指标,从而实现数据降维的目的
TF-IDF 是一种简单的文本特征提取算法
卡方校验: 在分类资料统计推断中一般用于检验一个样本是否符合预期的一个分布. 是统计样本的实际值与理论推断值之间的偏离程度. 卡方值越小,越趋于符合
高斯分布:当一个数据向量在一个高斯分布的模型计算与之以内,则认为它与高斯分布相匹配,属于此模型的聚类. 混合高斯分布:任何样本的聚类都可以使用多个单高斯分布模型来表示.主要解决单...
spark mllib 支持向量机 胃癌转移判断案例
机器学习部分的运行环境 idea15 + spark-assembly-1.6.1-hadoop2.6.0.jar + scala-sdk-2.10.5 + jdk1.8 基于用户对电影的点评,利用spark mllib的协同过滤算法之余弦相似度,计算用户的相似性...
基本原理:使用含有权重的无向线将样本数据连接在一张无向图中,之后按照相似度划分, 使得划分后的子图内部具有最大的相似度二不同的子图具有最小的相似度从而达到聚类的效果. 数据源要求 ...
Apriori算法基础上改进的关联关系挖掘算法 FP-growth
胃癌转移数据说明 肾细胞癌转移情况(有转移 y=1,无转移 y=2) x1:确诊时患者年龄(岁) x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级 x3:肾细胞癌组织内微血管数(MVC) x4:...
spark mllib朴素贝叶斯 naive bayes 分类例子
Spark 读取本地日志文件,抽取最高的访问地址,排序,并保存到本地文件
这是一份良好的可以执行的日志分析,Spark Streaming、Flume、Kafka 最新最全日志分析,请按照要求建立项目工程.关于jar包,建议自己编译.如果还有问题,实在 搞不定的,请联系我给你们编译好的相...
随机梯度下降法(stochastic gradient descent,SGD) SGD是最速梯度下降法的变种。 使用最速梯度下降法,将进行N次迭代,直到目标函数收敛,或者到达某个既定的收敛界限。 每次迭代都将对m...
奇异值分解(SVD):一个矩阵分解成带有方向向量的矩阵相乘
机器学习部分的运行环境 idea15 + spark-assembly-1.6.1-hadoop2.6.0.jar + scala-sdk-2.10.5 + jdk1.8 基于用户对物品的点评,利用spark mllib的协同过滤算法之ALS,为用户推荐商品...
没有更多内容
加载失败,请刷新页面
文章删除后无法恢复,确定删除此文章吗?
动弹删除后,数据将无法恢复
评论删除后,数据将无法恢复