加载中
spark工作的一些总结

请描述spark RDD原理与特征? spark RDD原理:是一个容错的、并行的(弹性分布式)数据结构,可以控制数据存储至磁盘或者内存,能够获取数据的分区。其具体特征,如下: 1)创建:rdd创建有2种...

2018/06/19 14:08
36
Spark SQL在100TB上的自适应执行实践

Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易...

2018/01/31 14:17
19
SparkStructuredStreaming 的例子

在spark2.X版本后,新增了一个更高级的接口结构化流。 Structured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。您可以...

2018/01/25 16:19
156
SparkGraph 与SparkDataFrame 两种方式计算朋友的二度关系

例如现在有这些数据: 10010 95555 2016-11-11 15:55:54 10010 95556 2016-11-11 15:55:54 10010 95557 2016-11-11 15:55:54 10086 95555 2016-11-11 15:55:54 10086 ...

2018/01/18 18:08
262
Apache Spark 黑名单(Blacklist)机制介绍

来源:https://www.iteblog.com/archives/1907.html 在使用 Apache Spark 的时候,作业会以分布式的方式在不同的节点上运行;特别是当集群的规模很大时,集群的节点出现各种问题是很常见的,...

2018/01/12 17:29
29
spark DAG 切分 stage

1、DAG的整体图 简要说明(个人理解): ①当所有的RDD触发action的时候,会生成一个DAG ②stage是由DAG进行切分的,可以理解stage是一个taskset ③DAG是根据宽依赖进行切分stage的,stage是由...

2018/01/10 15:47
78
spark 广播变量 之广播表(dataframe)

Broadcast variables(广播变量)允许程序员将一个 read-only(只读的)变量缓存到每台机器上,而不是给任务传递一个副本。它们是如何来使用呢,例如,广播变量可以用一种高效的方式给每个节...

2018/01/10 11:42
212
Spark on yarn 的两种模式

1、两种模式的区别 cluster模式:Driver程序在YARN中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如HDFS、Redis、Mysql)而非stdout输出的应用程...

2018/01/10 11:20
67
spark GBT算法

梯度增强树(GBT)是使用决策树组合的流行回归方法 相对于Random forest 来说GBT在实际应用中,效果更好 直接上代码 package mllib import org.apache.spark.ml.Pipeline import org.apache...

2017/07/12 14:46
59
spark MLPC 文本分类例子

1、公司名归类,简称cc码 2、算法:多层感知分类 3、总思路:文本分词-->Word2Vec--->矩阵---->MultilayerPerceptronClassifier ①中文分词使用是 IK Analyzer 例如:浙江工人日报社印刷厂---...

2017/06/19 17:46
60
spark 整理的一些知识

Spark 知识点 请描述spark RDD原理与特征? RDD全称是resilient distributed dataset(具有弹性的分布式数据集)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的...

2018/06/18 17:28
210
Spark SQL中Join常用的几种实现

引言 Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 SparkSQL作为大数据...

2018/01/31 17:29
24
spark参数调优

Spark 性能调优参数总结 1、Shuffle 相关 Shuffle 操作大概是对Spark 性能影响最大的步骤之一(因为可能涉及到排序,磁盘IO,网 络IO 等众多CPU 或IO 密集的操作),这也是为什么在Spark 1.1...

2018/01/15 17:46
15
spark随机森林算法的应用

应用场景:预测反欺诈用户 1、构建用户画像,用户画像由多种业务指标组成(例如用户申请后回访次数、ip城市与gps城市是否一致等等) 2、提取用户画像的业务指标--->将指标数值变成向量和矩阵...

2017/06/26 16:55
76
spark任务提交简要图(standalone)

spark 任务提交的过程

2017/06/19 17:02
24

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部