文档章节

spark入门

coord
 coord
发布于 2017/06/26 16:05
字数 336
阅读 16
收藏 0

1. 安装spark

    访问Spark下载页

    我这里下载的版本是: spark-2.1.1-bin-hadoop2.7.tgz

2. 配置spark

 ~$ cd

 ~$ tar xf spark-2.1.1-bin-hadoop2.7.tgz

 ~$ mv spark-2.1.1-bin-hadoop2.7 spark

 ~$ vim .bash_profile

 添加如下代码到配置文件中

 export SPARK_HOME=spark所在目录
 export PATH=$SPARK_HOME/bin:$PATH

~$ source .bash_profile 使之生效

3. 创建虚拟环境

  ~$ virtualenv sparkenv(如果没有安装virtualenv 请先pip install virtualenv)

  ~$ source sparkenv/bin/active

  ~$ pip install PySpark  # (安装PySpark)  这个时候会提示Requirement already satisfied: PySpark in ./spark/python 实际上并没有添加到python的PYTHONPATH里面去,需要执行一下源码安装。

  ~$ cd ~/spark/python

  ~$ python setup.py install 即可安装成功

4. 示例在pycharm运行

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
__title__ = ''
__author__ = ''
__mtime__ = '26/06/2017'
"""
import time
from pyspark import SparkContext

sc = SparkContext('local', 'pyspark')

def isprime(n):
    """
    check if integer n is a prime
    """
    # make sure n is a positive integer
    n = abs(int(n))
    # 0 and 1 are not primes
    if n < 2:
        return False
    # 2 is the only even prime number
    if n == 2:
        return True
    # all other even numbers are not primes
    if not n & 1:
        return False
    # range starts with 3 and only needs to go up the square root of n
    # for all odd numbers
    for x in range(3, int(n**0.5)+1, 2):
        if n % x == 0:
            return False
    return True

start = time.time()
nums = sc.parallelize(xrange(1000000))
result = nums.filter(isprime).count()
end = time.time()
print("primes total:{}, cost: {}s".format(result, end-start))

运行结果如下:

 

5. 更多示例

https://github.com/fdrong/sparkdemo

6. 参考链接:

https://github.com/apache/spark/tree/master

http://blog.jobbole.com/86232/

 

 

 

 

© 著作权归作者所有

共有 人打赏支持
coord
粉丝 2
博文 52
码字总数 10879
作品 0
闵行
程序员
Spark 学习资源收集【Updating】

(一)spark 相关安装部署、开发环境 1、Spark 伪分布式 & 全分布式 安装指南 http://my.oschina.net/leejun2005/blog/394928 2、Apache Spark探秘:三种分布式部署方式比较 http://dongxic...

大数据之路
2014/09/08
0
1
Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark

Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈 大数据的概念与应用,正随着智能手机、平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题。图计算正在被广泛地...

Spark亚太研究院
2014/08/29
0
0
Spark1.2.1集群环境搭建——Standalone模式

机器准备 笔者有三台机器,左侧栏为ip,右侧为hostname,三台机器都有一个名为spark的用户。 192.168.248.150 spark-master192.168.248.153 ubuntu-worker192.168.248.155 spark-worker1 根据...

Jackson_Mu
2015/03/16
0
13
windows 安装 spark 及 pycharm 调试 TopN 实例

首先声明本文搭建的环境为:windows8.1 + spark1.6.0 + python2.7 + jdk8,spark on windows 对 windows及python版本不怎么挑,但是对 spark 版本要求极其苛刻,比如 spark1.6.1 就无法运行。...

大数据之路
2012/06/28
0
0
【DataMagic】如何在万亿级别规模的数据量上使用Spark

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文首发在云+社区,未经许可,不得转载。 作者:张国鹏 | 腾讯 运营开发工程师 一、前言 Spark作为大数据计算引擎,凭借其快速、...

04/18
0
0

没有更多内容

加载失败,请刷新页面

加载更多

CentOS 7.* 配置网络

配置静态IP 进入配置文件目录 cd /etc/sysconfig/network-scripts 查找以 ifcfg-eno 开头的文件并编辑它 vi ifcfg-ens32 修改文件中的变量值 BOOTPROTO=staticONBOOT=yesIPADDR=192.168...

阿白
40分钟前
0
0
深入理解OAuth2.0协议

1. 引言 如果你开车去酒店赴宴,你经常会苦于找不到停车位而耽误很多时间。是否有好办法可以避免这个问题呢?有的,听说有一些豪车的车主就不担心这个问题。豪车一般配备两种钥匙:主钥匙和泊...

xtof
44分钟前
1
0
Linux学习-0920

3.4 usermod命令 3.5 用户密码管理 3.6 mkpasswd命令 一、usermode命令 usermode作用是用来修改用户信息。 方法: usermod 参数 username 示例1:修改用户uid usermod -u 1010 test5 示例2...

wxy丶
54分钟前
1
0
synchronized锁对象的坑

今天本来写点其他东西,碰巧写了一下synchronized,没想到掉坑里面了,大佬别笑。 起初代码大概是这样的: package com.ripplechan.part_1_2_3;import java.util.concurrent.CountDownL...

RippleChan
57分钟前
1
0
XAMPP环境搭建(Apache + MariaDB + PHP + Perl)

operation system:ubuntu-18.04.1 step1:download XAMPP #sudo wget https://www.apachefriends.org/xampp-files/7.2.9/xampp-linux-x64-7.2.9-0-installer.run step2:install XAMPP #sudo ......

硅谷课堂
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部