文档章节

Hadoop CDH5 Spark部署

China_OS
 China_OS
发布于 2014/05/30 14:50
字数 586
阅读 1690
收藏 2

      Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速,Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。

CDH5 Spark安装

1    Spark的相关软件包

spark-core: spark的核心软件包
spark-worker: 管理spark-worker的脚本
spark-master: 管理spark-master的脚本
spark-python: Spark的python客户端

2     Spark运行依赖的环境

CDH5
JDK

3     安装Spark

apt-get install spark-core spark-master spark-worker spark-python
4     配置运行Spark (Standalone Mode)

        1     Configuring Spark(/etc/spark/conf/spark-env.sh)

SPARK_MASTER_IP, to bind the master to a different IP address or hostname
SPARK_MASTER_PORT / SPARK_MASTER_WEBUI_PORT, to use non-default ports
SPARK_WORKER_CORES, to set the number of cores to use on this machine
SPARK_WORKER_MEMORY, to set how much memory to use (for example 1000MB, 2GB)
SPARK_WORKER_PORT / SPARK_WORKER_WEBUI_PORT
SPARK_WORKER_INSTANCE, to set the number of worker processes per node
SPARK_WORKER_DIR, to set the working directory of worker processes

          2      Starting, Stopping, and Running Spark

service spark-master start
service spark-worker start

                    还有一个GUI界面在<master_host>:18080

5 Running Spark Applications

        1     Spark应用有三种运行模式:

                    Standalone mode:默认模式

                    YARN client mode:提交spark应用到YARN,spark驱动在spark客户端进程上。

                        YARN cluster mode:提交spark应用到YARN,spark驱动运行在ApplicationMaster上。

          2     运行SparkPi在Standalone模式

source /etc/spark/conf/spark-env.sh
CLASSPATH=$CLASSPATH:/your/additional/classpath
$SPARK_HOME/bin/spark-class [<spark-config-options>]  \     
    org.apache.spark.examples.SparkPi  \  
    spark://$SPARK_MASTER_IP:$SPARK_MASTER_PORT 10
                    Spark运行参数设置:http://spark.apache.org/docs/0.9.0/configuration.html

           3     运行SparkPi在YARN Client模式

                        在YARN client和YARN cluster模式下, 你首先要上传spark JAR包到你的HDFS上, 然后设置SPARK_JAR环境变量。
source /etc/spark/conf/spark-env.sh
hdfs dfs -mkdir -p /user/spark/share/lib
hdfs dfs -put $SPARK_HOME/assembly/lib/spark-assembly_*.jar  /user/spark/share/lib/spark-assembly.jar
SPARK_JAR=hdfs://<nn>:<port>/user/spark/share/lib/spark-assembly.jar


source /etc/spark/conf/spark-env.sh
SPARK_CLASSPATH=/your/additional/classpath
SPARK_JAR=hdfs://<nn>:<port>/user/spark/share/lib/spark-assembly.jar
$SPARK_HOME/bin/spark-class [<spark-config-options>]  \    
    org.apache.spark.examples.SparkPi yarn-client 10
        4     运行SparkPi在YARN Cluster模式

source /etc/spark/conf/spark-env.sh
SPARK_JAR=hdfs://<nn>:<port>/user/spark/share/lib/spark-assembly.jar
APP_JAR=$SPARK_HOME/examples/lib/spark-examples_<version>.jar
$SPARK_HOME/bin/spark-class org.apache.spark.deploy.yarn.Client \
      --jar $APP_JAR \
      --class org.apache.spark.examples.SparkPi \
      --args yarn-standalone \
      --args 10




© 著作权归作者所有

下一篇: Docker常用命令
China_OS
粉丝 428
博文 463
码字总数 520158
作品 0
静安
技术主管
私信 提问
hadoop-spark-hive-hbase配置相关说明

1. zookeeper 配置 cp app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.0-beta-2-och3.0.0-SNAPSHOT/conf/zoo_sample.cfg app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.......

雪童子
2015/10/10
0
0
Cloudera Developer之Spark 及 Hadoop 开发员培训(CCA-175)

学习如何将数据导入到 Apache Hadoop 机群并使用 Spark、Hive、Flume、Sqoop、Impala 及其他 Hadoop 生态系统工具对数据进行各种操作和处理分析。 培训详情地址:https://www.huodongjia.co...

活动家
2017/07/28
242
0
Apache Spark 1.0 发布,集群计算环境

Apache Spark 1.0 发布了,这是一个主要的版本,包含大量新特性和强 API 兼容性。此外该版本增加了一个主要组件 —— Spark SQL 用来操作 Spark 上的结构化数据;此外增强了 Java 和 Python...

oschina
2014/05/31
2.6K
3
Spark 学习资源收集【Updating】

(一)spark 相关安装部署、开发环境 1、Spark 伪分布式 & 全分布式 安装指南 http://my.oschina.net/leejun2005/blog/394928 2、Apache Spark探秘:三种分布式部署方式比较 http://dongxic...

大数据之路
2014/09/08
5.4K
0
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第1节 ①

一、MapReduce已死,Spark称霸 由于Hadoop的MapReduce高延迟的死穴,导致Hadoop无力处理很多对时间有要求的场景,人们对其批评越来越多,Hadoop无力改变现在而导致正在死亡。正如任何领域一样...

Spark亚太研究院
2014/12/12
311
0

没有更多内容

加载失败,请刷新页面

加载更多

python学习10.04:Python list列表使用技巧及注意事项

前面章节介绍了很多关于 list 列表的操作函数,细心的读者可能会发现,有很多操作函数的功能非常相似。例如,增加元素功能的函数有 append() 和 extend(),删除元素功能的有 clear()、 remo...

太空堡垒185
27分钟前
4
0
新手插画学习的方法?教你如何自学?

插画学习的方法?教你如何自学? 从小喜欢画一些漫画头像随笔画,但是其实没有基础。个人偏好小清新手绘风的插画(如下图),每每看到都希望自己能画出这样的作品。 我其实很想说画这种美术功...

huihuajiaocheng
32分钟前
4
0
面试题

1、实现clone();

gtandsn
43分钟前
5
0
CentOS 7 部署 tesseract-ocr

官方地址 github yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/ 若提示 yum-config-manager: command not found 执行以......

阿白
44分钟前
3
0
JAVA比较器中comparator的使用

一个专用的比较器Comparator Comparator是一个专用的比较器,当一个不支持自比较或者自比较函数不能满足要求时,可写一个比较器来完成两个对象之间大小的比较。Comparator体现了一种策略模式...

daxiongdi
44分钟前
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部