加载中
spark工作的一些总结

请描述spark RDD原理与特征? spark RDD原理:是一个容错的、并行的(弹性分布式)数据结构,可以控制数据存储至磁盘或者内存,能够获取数据的分区。其具体特征,如下: 1)创建:rdd创建有2种...

06/19 14:08
9
spark 整理的一些知识

Spark 知识点 请描述spark RDD原理与特征? RDD全称是resilient distributed dataset(具有弹性的分布式数据集)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的...

06/18 17:28
31
hadoop 工作上的一些知识点总结

HDFS部分 如果让你来运营一个hdfs集群,你会重点关注哪些性能指标?请说出原因 详情参考hadoop相关性能指标说明。这里列出一些hdfs的关键指标 (1)rpc相关 rpc.rpc.RpcQueueTimeAvgTime:rpc...

Apache Spark 黑名单(Blacklist)机制介绍

来源:https://www.iteblog.com/archives/1907.html 在使用 Apache Spark 的时候,作业会以分布式的方式在不同的节点上运行;特别是当集群的规模很大时,集群的节点出现各种问题是很常见的,...

01/12 17:29
8
spark参数调优

Spark 性能调优参数总结 1、Shuffle 相关 Shuffle 操作大概是对Spark 性能影响最大的步骤之一(因为可能涉及到排序,磁盘IO,网 络IO 等众多CPU 或IO 密集的操作),这也是为什么在Spark 1.1...

01/15 17:46
8

没有更多内容

加载失败,请刷新页面

返回顶部
顶部