加载中
Spark SQL

Hive On Spark和SparkSQL都是一个翻译层 把一个SQL翻译成分布式可执行的Spark程序。而且大家的引擎都是spark。 两种方式使用SparkSQL,Spark SQL is a Spark module for structured data pro...

2019/04/11 14:56
108
Spark 小内容

Spark 的一些内容 1.函数作用以及返回值类型 foreach flatMap 返回的迭代器的所有内容构成新的RDD 是一个序列化的数据而不是单个数据项-- a Seq map map:对集合中每个元素进行操作。 flatMa...

2019/04/11 15:26
36
Spark 内存管理

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。 理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳...

2019/03/19 17:48
70
Spark 数据倾斜

什么是数据倾斜 比方WordCount中某个Key对应的数据量非常大的话,就会产生数据倾斜,导致两个后果: OM(单或少数的节点); 拖慢整个Job执行时间(其他已经完成的节点都在等这个还在做的节点...

2019/03/21 09:57
567
spark mllib 分类预测之逻辑回归

胃癌转移数据说明 肾细胞癌转移情况(有转移 y=1,无转移 y=2) x1:确诊时患者年龄(岁) x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级 x3:肾细胞癌组织内微血管数(MVC) x4:...

2016/07/28 19:22
2.4K
spark开发工具idea

spark开发工具idea破解安装

2016/05/26 14:51
164
spark mllib 决策树 DT

决策树是一种监督学习,分类的一种. 决策树使用案例-出去玩

spark mllib 随机森林算法

spark mllib 随机森林算法是机器学习、

spark mlilib 聚类 KMeans

一般来说,回归即是预测,分类是指有监督的学习,即要分类的样本是有标记的,类别是已知的; 聚类是指无监督的学习,样本没有标记,根据某种相似度度量,将样本聚为 K类

spark mllib 分类之支持向量机

spark mllib 支持向量机 胃癌转移判断案例

spark mlilib 聚类 混合高斯

高斯分布:当一个数据向量在一个高斯分布的模型计算与之以内,则认为它与高斯分布相匹配,属于此模型的聚类. 混合高斯分布:任何样本的聚类都可以使用多个单高斯分布模型来表示.主要解决单...

spark mllib 随机梯度下降 SGD

随机梯度下降法(stochastic gradient descent,SGD) SGD是最速梯度下降法的变种。 使用最速梯度下降法,将进行N次迭代,直到目标函数收敛,或者到达某个既定的收敛界限。 每次迭代都将对m...

spark mllib 预测之LinearRegression(线性回归)

spark mllib LinearRegression(线性回归), 商品价格与消费者输入之间的关系

spark mllib 聚类 快速迭代

基本原理:使用含有权重的无向线将样本数据连接在一张无向图中,之后按照相似度划分, 使得划分后的子图内部具有最大的相似度二不同的子图具有最小的相似度从而达到聚类的效果. 数据源要求 ...

Intellij-idea工具开发spark常见问题解决备案

Intellij-idea工具开发spark常见问题解决备案,环境部署,打包

Spark Streaming结合Flume、Kafka最新最全日志分析

这是一份良好的可以执行的日志分析,Spark Streaming、Flume、Kafka 最新最全日志分析,请按照要求建立项目工程.关于jar包,建议自己编译.如果还有问题,实在 搞不定的,请联系我给你们编译好的相...

spark mllib 基于卡方校验的特征选择

卡方校验: 在分类资料统计推断中一般用于检验一个样本是否符合预期的一个分布. 是统计样本的实际值与理论推断值之间的偏离程度. 卡方值越小,越趋于符合

spark mllib 朴素贝叶斯 naive bayes

spark mllib朴素贝叶斯 naive bayes 分类例子

spark mllib 朴素贝叶斯 应用案例

朴素贝叶斯,可应用于垃圾邮件,短信的分类僵尸粉的鉴定等.下面以僵尸粉的鉴定为例

spark mllib 数据降维 主成分分析(PCA)

主成分分析PCA:设法将原来具有一定相关行(比如 P个指标)的指标 重新组合成一组新的互相无关的综合指标来代替原来的指标,从而实现数据降维的目的

没有更多内容

加载失败,请刷新页面

返回顶部
顶部