文档章节

在jupyter中使用Spark

雨中人X
 雨中人X
发布于 2016/10/02 12:25
字数 434
阅读 339
收藏 0

在Jupyter中使用Spark

Jupyter 是什么?

Jutpyer 官网

The Jupyter Notebook is a web application that allows you to create and share documents that contain live code, equations, visualizations and explanatory text. Uses include: data cleaning and transformation, numerical simulation, statistical modeling, machine learning and much more.

Jupyter 是从IPython中分离出来的一个项目。其是一个Web应用,可以方便的使用浏览器创建文档,编写程序,以可视化的方式展示数据。其原始目的为个给Python设计的,但现在可以支持多种语言,Scala就是其中一种。

安装软件

运行环境

  • 操作系统 Linux
  • Python 3
  • Scala 2.11.8
  • Spark 1.6.2 (由于toree包现在支持1.6 所以不能用最新的Spark 2.0)
  • Apache Torre 0.1.0.dev8 (可以让Jupyter 支持Scala)

首先下载 Scala和Spark

Scala 官网
Spark 官网

注:我用的是的Debian系列的Linux,可以在Scala官网下载相应的Linux安装包
wget http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.deb
wget http://mirror.bit.edu.cn/apache/spark/spark-1.6.2/spark-1.6.2-bin-hadoop2.6.tgz

安装 Scala,Spark

sudo dpkg -i scala-2.11.8.deb
sudo tar -xzf spark-1.6.2-bin-hadoop2.6.tgz -C /opt

安装Jupyter和toree

pip3 install jupyter --user   
pip3 install toree --user

--user 指定安装方式为用户模式,默认安装在$HOME/.local/bin 只需将此路径加入环境变量即可

export PATH="$HOME/.local/bin:$PATH"

配置Spark和toree

jupyter toree install --spark_home=/opt/spark-1.6.2-bin-hadoop2.6  --user

启动Jupyter

jupyter-notebook

Jupyter

新建一个Kernel

Toree

测试一下

测试

这里的每一个输入框都是一个Scala解释器,并且带有SparkContext。可以当作是一个Spark-Shell

使用Jupyter有几个优势

  • 方便修改代码
  • 方便查看结果
  • 可以把操作记录生成文档
  • 可以远程访问(只需将Jupyter 端口绑定到0.0.0.0即可)

全民放假,今天就写到这吧

© 著作权归作者所有

共有 人打赏支持
雨中人X
粉丝 8
博文 57
码字总数 15326
作品 0
深圳
高级程序员
在阿里云EMR上使用Intel Analytics Zoo进行深度学习

简介 Analytics Zoo是由Intel开源,基于Apache Spark和Inte BigDL的大数据分析和AI平台,方便用户开发基于大数据、端到端的深度学习应用。 系统要求 JDK 8 Spark 集群(推荐使用EMR支持的Spark...

江宇-燕回
09/12
0
0
mac上面配置anaconda3+pyspark+jupyter_notebook

今天花了一些时间来整理mac osx系统下用anaconda环境配置pyspark+jupyter notebook启动的整个过程。 背景介绍: 我原本用的是anaconda 2.7版本,创建了python3的环境变量,安装了python3,虽...

九日照林
07/27
0
0
pyspark 的使用,以及 Python pyspark 与 Spark python 语法对比

1.pyspark使用方式 1.1. jupyter 、Python shell 、pycharm 1.2. pyspark shell 【1.3. ipython : %pyspark】 2.Python pyspark和 Spark python区别 可以在idea里面探索它们的区别,因为可以......

datadev_sh
08/13
0
0
教你如何成为Spark大数据高手

Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么如何成为Spark大数据高手?下面就来个深度教程。 分享之前我还是要推荐下我自己创建的大数据学习交...

风火数据
05/20
0
0
Spark 的Core深入(二)

Spark 的 Core 深入(二) 标签(空格分隔): Spark的部分 一、日志清洗的优化: 1.1 日志清洗有脏数据问题 rdd.partitions.length rdd.cacherdd.count 一个分区默认一个task 分区去处理默认...

flyfish225
05/08
0
0

没有更多内容

加载失败,请刷新页面

加载更多

#mysql50# not Exist

data 目录有中文名称,可能是复制的"复件...."

少年不搬砖老大徒伤悲
20分钟前
1
0
在yii2中,让你action参数支持POST数据的小方法

我们先来看一段代码 class RaController extends Controller { public $enableCsrfValidation = false; public function actionSay($username = '',$city = ''){ echo "{$......

阿北2017
29分钟前
2
0
macOS 10.14 Mojave

在近日发布的 macOS 10.14 Mojave 操作系统中,有人发现它(在某些机型中)悄然禁用了先前的「次像素平滑渲染」选项,导致部分(尤其是使用非高分辨率显示器)用户觉得字体比先前的更细更难看...

火力全開
34分钟前
2
0
 实现分布式锁的正确姿势

实现分布式锁的正确姿势 原理分析 最近看到好多博主都在推分布式锁,实现方式很多,基于db、redis、zookeeper。zookeeper方式实现起来比较繁琐,这里我们就谈谈基于redis实现分布式锁的正确实...

DemonsI
38分钟前
2
0
微信小程序 、支付宝小程序、百度小程序和钉钉e应用的汇总

2018年9月25日 百度小程序开放企业申请 微信小程序:现在微信小游戏都热火朝天了,而且已经有了云开发,包括提供的能力、文档、社区等都相对完善,也有相关的变现方式; 支付宝小程序:https...

to_be_better
41分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部