文档章节

在jupyter中使用Spark

雨中人X
 雨中人X
发布于 2016/10/02 12:25
字数 434
阅读 415
收藏 0

在Jupyter中使用Spark

Jupyter 是什么?

Jutpyer 官网

The Jupyter Notebook is a web application that allows you to create and share documents that contain live code, equations, visualizations and explanatory text. Uses include: data cleaning and transformation, numerical simulation, statistical modeling, machine learning and much more.

Jupyter 是从IPython中分离出来的一个项目。其是一个Web应用,可以方便的使用浏览器创建文档,编写程序,以可视化的方式展示数据。其原始目的为个给Python设计的,但现在可以支持多种语言,Scala就是其中一种。

安装软件

运行环境

  • 操作系统 Linux
  • Python 3
  • Scala 2.11.8
  • Spark 1.6.2 (由于toree包现在支持1.6 所以不能用最新的Spark 2.0)
  • Apache Torre 0.1.0.dev8 (可以让Jupyter 支持Scala)

首先下载 Scala和Spark

Scala 官网
Spark 官网

注:我用的是的Debian系列的Linux,可以在Scala官网下载相应的Linux安装包
wget http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.deb
wget http://mirror.bit.edu.cn/apache/spark/spark-1.6.2/spark-1.6.2-bin-hadoop2.6.tgz

安装 Scala,Spark

sudo dpkg -i scala-2.11.8.deb
sudo tar -xzf spark-1.6.2-bin-hadoop2.6.tgz -C /opt

安装Jupyter和toree

pip3 install jupyter --user   
pip3 install toree --user

--user 指定安装方式为用户模式,默认安装在$HOME/.local/bin 只需将此路径加入环境变量即可

export PATH="$HOME/.local/bin:$PATH"

配置Spark和toree

jupyter toree install --spark_home=/opt/spark-1.6.2-bin-hadoop2.6  --user

启动Jupyter

jupyter-notebook

Jupyter

新建一个Kernel

Toree

测试一下

测试

这里的每一个输入框都是一个Scala解释器,并且带有SparkContext。可以当作是一个Spark-Shell

使用Jupyter有几个优势

  • 方便修改代码
  • 方便查看结果
  • 可以把操作记录生成文档
  • 可以远程访问(只需将Jupyter 端口绑定到0.0.0.0即可)

全民放假,今天就写到这吧

© 著作权归作者所有

共有 人打赏支持
雨中人X
粉丝 8
博文 57
码字总数 15326
作品 0
深圳
高级程序员
私信 提问
PySpark安装+Jupyter Notebook配置(Ubuntu 18.06)

学校一门需要学习Spark in Python。 这篇文章记录一下安装PySpark和Jupyter Notebook上运行Spark的步骤。 Prerequisite 我的系统是:Ubuntu 18.06 LTS 已经装好了python2和3(如果没有可以看看...

colleen
2018/09/05
0
0
在阿里云EMR上使用Intel Analytics Zoo进行深度学习

简介 Analytics Zoo是由Intel开源,基于Apache Spark和Inte BigDL的大数据分析和AI平台,方便用户开发基于大数据、端到端的深度学习应用。 系统要求 JDK 8 Spark 集群(推荐使用EMR支持的Spark...

江宇-燕回
2018/09/12
0
0
mac上面配置anaconda3+pyspark+jupyter_notebook

今天花了一些时间来整理mac osx系统下用anaconda环境配置pyspark+jupyter notebook启动的整个过程。 背景介绍: 我原本用的是anaconda 2.7版本,创建了python3的环境变量,安装了python3,虽...

九日照林
2018/07/27
0
0
搭建Spark集群?没想到你是这样的k8s

在本文的例子中,你将使用 Kubernetes 和 Docker 创建一个功能型Apache Spark集群。 你将使用Spark standalone模式 安装一个 Spark master服务和一组Spark workers。 对于已熟悉这部分内容的...

时速云
2016/08/24
572
0
[Spark]Spark RDD 指南一 引入Spark

2.3.0版本:Spark2.3.0 引入Spark 1. Java版 Spark 2.1.1适用于Java 7及更高版本。 如果您使用的是Java 8,则Spark支持使用lambda表达式来简洁地编写函数,否则可以使用org.apache.spark.ap...

sjf0115
2017/06/08
0
0

没有更多内容

加载失败,请刷新页面

加载更多

金丝雀发布、滚动发布、蓝绿发布到底有什么差别?关键点是什么?

根据 2017 年的 DevOps 发展报告,高效能组织和低效能组织在软件交付的效率上有数量级上的差异。技术组织的软件交付能力是一种综合能力,涉及众多环节,其中发布是尤为重要的环节。 作为技术...

问题终结者
37分钟前
2
0
Kubernetes Client-go Informer 源码分析

几乎所有的Controller manager 和CRD Controller 都会使用Client-go 的Informer 函数,这样通过Watch 或者Get List 可以获取对应的Object,下面我们从源码分析角度来看一下Client go Informe...

阿里云官方博客
今天
4
0
传统IDC部署网站(三)

11. 重置密码 密钥和密码都支持远程登陆, 二选一 两个都可以登陆, 密钥相对于密码来说,相对安全一点 本地登陆无法是用密钥 修改密码 root 用户 passwd root 修改普通用户 passwd usernam...

miko0089
今天
6
0
bash特性

1.支持别名 alias 2.命令替换 $(COMMANS) 或者 `COMMAND` 3. bash支持的引号: `` :命令替换 "":弱引用,可以实现变量替换 '':强引用,不实现变量替换 4.文件名通配 globbing:(man 7 glo...

忙碌的小蜜蜂
今天
3
0
以语音评测的PC端demo代码为例,讲解口语评测如何实现

本文由云+社区发表 作者:腾讯智慧教育 概述 腾讯云智聆口语评测(英文版)(Smart Oral Evaluation-English,SOE-E)是腾讯云推出的语音评测产品,是基于英语口语类教育培训场景和腾讯云的语...

腾讯云加社区
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部