加载中
spark工作的一些总结

请描述spark RDD原理与特征? spark RDD原理:是一个容错的、并行的(弹性分布式)数据结构,可以控制数据存储至磁盘或者内存,能够获取数据的分区。其具体特征,如下: 1)创建:rdd创建有2种...

06/19 14:08
17
hadoop 工作上的一些知识点总结

HDFS部分 如果让你来运营一个hdfs集群,你会重点关注哪些性能指标?请说出原因 详情参考hadoop相关性能指标说明。这里列出一些hdfs的关键指标 (1)rpc相关 rpc.rpc.RpcQueueTimeAvgTime:rpc...

Spark SQL在100TB上的自适应执行实践

Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易...

01/31 14:17
18
SparkStructuredStreaming 的例子

在spark2.X版本后,新增了一个更高级的接口结构化流。 Structured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。您可以...

01/25 16:19
127
hdfs的高可用

hdfs的高可用架构图 注意事项: ①启动的时候,会随机分配namenode的active和standy,然后在active这端zkfc会向zk注册一把active的锁 ②如果有问题,会删除active端这把锁,然后通知对方 ③高...

01/19 11:33
15
SparkGraph 与SparkDataFrame 两种方式计算朋友的二度关系

例如现在有这些数据: 10010 95555 2016-11-11 15:55:54 10010 95556 2016-11-11 15:55:54 10010 95557 2016-11-11 15:55:54 10086 95555 2016-11-11 15:55:54 10086 ...

01/18 18:08
197
Apache Spark 黑名单(Blacklist)机制介绍

来源:https://www.iteblog.com/archives/1907.html 在使用 Apache Spark 的时候,作业会以分布式的方式在不同的节点上运行;特别是当集群的规模很大时,集群的节点出现各种问题是很常见的,...

01/12 17:29
11
ElastricSearch打分简介

1、Elasticsearch的打分公式 Elasticsearch的默认打分公式是lucene的打分公式,主要分为两部分的计算,一部分是计算query部分的得分,另一部分是计算field部分的得分,下面给出ES官网给出的打...

01/12 11:24
32
spark DAG 切分 stage

1、DAG的整体图 简要说明(个人理解): ①当所有的RDD触发action的时候,会生成一个DAG ②stage是由DAG进行切分的,可以理解stage是一个taskset ③DAG是根据宽依赖进行切分stage的,stage是由...

01/10 15:47
59
spark 广播变量 之广播表(dataframe)

Broadcast variables(广播变量)允许程序员将一个 read-only(只读的)变量缓存到每台机器上,而不是给任务传递一个副本。它们是如何来使用呢,例如,广播变量可以用一种高效的方式给每个节...

01/10 11:42
125
Spark on yarn 的两种模式

1、两种模式的区别 cluster模式:Driver程序在YARN中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如HDFS、Redis、Mysql)而非stdout输出的应用程...

01/10 11:20
51
ElastricSearch的nested的应用

nested query (嵌套查询) 文档中可能包含嵌套类型的字段,这些字段用来索引一些数组对象,每个对象都可以作为一条独立的文档被查询出来(用嵌套查询) 场景:商店(shop) 活动(act) 目标是将活动...

01/10 10:36
29
ElastricSearch的parent_child的应用

ElasticSearch 这样的分布式系统中执行全 SQL 风格的连接查询代价昂贵,是不可行的。相应地,为了实现水平规模地扩展,ElasticSearch 提供了两种形式的 join。 1、nested query (嵌套查询) 文...

01/09 15:04
28
spark GBT算法

梯度增强树(GBT)是使用决策树组合的流行回归方法 相对于Random forest 来说GBT在实际应用中,效果更好 直接上代码 package mllib import org.apache.spark.ml.Pipeline import org.apache...

2017/07/12 14:46
46
es简单的脚本demo

脚本使用 在es API中支持脚本的地方,语法遵循相同的模式: "script": { "lang": "...", (1) "inline" | "stored" | "file": "...", (2) "params": { ... } (3) } (1)写入脚本的语言...

2017/06/28 18:29
47
spark MLPC 文本分类例子

1、公司名归类,简称cc码 2、算法:多层感知分类 3、总思路:文本分词-->Word2Vec--->矩阵---->MultilayerPerceptronClassifier ①中文分词使用是 IK Analyzer 例如:浙江工人日报社印刷厂---...

2017/06/19 17:46
48
spark 整理的一些知识

Spark 知识点 请描述spark RDD原理与特征? RDD全称是resilient distributed dataset(具有弹性的分布式数据集)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的...

06/18 17:28
75
ElastricSearch IK分词

IK的一些操作: 1.查看集群健康状况 GET /_cat/health?v&pretty 2.查看my_index的mapping和setting的相关信息 GET /my_index?pretty 3.查看所有的index GET /_cat/indices?v&pretty 4.删除...

02/01 14:30
9
Spark SQL中Join常用的几种实现

引言 Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 SparkSQL作为大数据...

01/31 17:29
17
spark参数调优

Spark 性能调优参数总结 1、Shuffle 相关 Shuffle 操作大概是对Spark 性能影响最大的步骤之一(因为可能涉及到排序,磁盘IO,网 络IO 等众多CPU 或IO 密集的操作),这也是为什么在Spark 1.1...

01/15 17:46
8

没有更多内容

加载失败,请刷新页面

返回顶部
顶部