文档章节

在jupyter中使用Spark

StormSnow
 StormSnow
发布于 2016/10/02 12:25
字数 434
阅读 1.5K
收藏 1

精选30+云产品,助力企业轻松上云!>>>

在Jupyter中使用Spark

Jupyter 是什么?

Jutpyer 官网

The Jupyter Notebook is a web application that allows you to create and share documents that contain live code, equations, visualizations and explanatory text. Uses include: data cleaning and transformation, numerical simulation, statistical modeling, machine learning and much more.

Jupyter 是从IPython中分离出来的一个项目。其是一个Web应用,可以方便的使用浏览器创建文档,编写程序,以可视化的方式展示数据。其原始目的为个给Python设计的,但现在可以支持多种语言,Scala就是其中一种。

安装软件

运行环境

  • 操作系统 Linux
  • Python 3
  • Scala 2.11.8
  • Spark 1.6.2 (由于toree包现在支持1.6 所以不能用最新的Spark 2.0)
  • Apache Torre 0.1.0.dev8 (可以让Jupyter 支持Scala)

首先下载 Scala和Spark

Scala 官网
Spark 官网

注:我用的是的Debian系列的Linux,可以在Scala官网下载相应的Linux安装包
wget http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.deb
wget http://mirror.bit.edu.cn/apache/spark/spark-1.6.2/spark-1.6.2-bin-hadoop2.6.tgz

安装 Scala,Spark

sudo dpkg -i scala-2.11.8.deb
sudo tar -xzf spark-1.6.2-bin-hadoop2.6.tgz -C /opt

安装Jupyter和toree

pip3 install jupyter --user   
pip3 install toree --user

--user 指定安装方式为用户模式,默认安装在$HOME/.local/bin 只需将此路径加入环境变量即可

export PATH="$HOME/.local/bin:$PATH"

配置Spark和toree

jupyter toree install --spark_home=/opt/spark-1.6.2-bin-hadoop2.6  --user

启动Jupyter

jupyter-notebook

Jupyter

新建一个Kernel

Toree

测试一下

测试

这里的每一个输入框都是一个Scala解释器,并且带有SparkContext。可以当作是一个Spark-Shell

使用Jupyter有几个优势

  • 方便修改代码
  • 方便查看结果
  • 可以把操作记录生成文档
  • 可以远程访问(只需将Jupyter 端口绑定到0.0.0.0即可)

全民放假,今天就写到这吧

StormSnow
粉丝 9
博文 60
码字总数 17354
作品 0
深圳
高级程序员
私信 提问
加载中
请先登录后再评论。
基础概念 之 Spark on Yarn

先抛出问题:Spark on Yarn有cluster和client两种模式,它们有什么区别? 用Jupyter写Spark时,只能使用client模式,为什么? 写一篇文章,搞清楚 Spark on Yarn 的运行原理,同时回答上面的...

osc_4l0h8in9
2018/07/03
4
0
Spark 的 python 编程环境

Spark 可以独立安装使用,也可以和 Hadoop 一起安装使用。在安装 Spark 之前,首先确保你的电脑上已经安装了 或者更高的版本。 Spark 安装 访问Spark 下载页面,并选择最新版本的 Spark 直接...

osc_3xmkn220
04/16
8
0
spark官方文档学习

spark官方文档学习 运行示例和外壳 Spark附带了几个示例程序。目录中有Scala,Java,Python和R示例 。要运行Java或Scala示例程序之一,请 在顶级Spark目录中使用。(在后台,这将调用更通用的...

随星所雨
04/16
16
0
如何在Windows上的Jupyter Notebook中安装和运行PySpark

When I write PySpark code, I use Jupyter notebook to test my code before submitting a job on the cluster. In this post, I will show you how to install and run PySpark locally in......

osc_fkjtc8e5
2019/04/14
8
0
如何在本地调试你的 Spark Job

生产环境的 Spark Job 都是跑在集群上的,毕竟 Spark 为大数据而生,海量的数据处理必须依靠集群。但是在开发Spark的的时候,不可避免我们要在本地进行一些开发和测试工作,所以如何在本地用...

osc_ow92sntn
05/22
9
0

没有更多内容

加载失败,请刷新页面

加载更多

唐山5.1级地震 百度人工智能技术帮上忙:成都减灾所提前30秒让北京、天津市民收到预警

本文作者:y****n 7月12日6时38分在河北唐山市古冶区发生5.1级地震,成都高新减灾研究所与应急管理部门联合建成的大陆地震预警网成功预警该地震,给唐山市提前3秒预警,给天津市提前33秒预警...

百度开发者中心
昨天
30
0
如何使用PHP发送POST请求? - How do I send a POST request with PHP?

问题: Actually I want to read the contents that come after the search query, when it is done. 实际上,我想阅读搜索查询之后的内容,完成之后。 The problem is that the URL only a......

javail
今天
14
0
如何从Java读取文件夹中的所有文件? - How to read all files in a folder from Java?

问题: 如何通过Java读取文件夹中的所有文件? 解决方案: 参考一: https://stackoom.com/question/7jt2/如何从Java读取文件夹中的所有文件 参考二: https://oldbug.net/q/7jt2/How-to-rea...

富含淀粉
今天
25
0
主机“ xxx.xx.xxx.xxx”不允许连接到该MySQL服务器

问题: This should be dead simple, but I cannot get it to work for the life of me. 这本来应该很简单,但是我无法让它在我的一生中发挥作用。 I'm just trying to connect remotely to......

技术盛宴
今天
18
0
OSChina 周二乱弹 —— 附近居民接连失踪,你们有什么头绪吗

Osc乱弹歌单(2020)请戳(这里) 【今日歌曲】 @薛定谔的兄弟 :分享洛神有语创建的歌单「我喜欢的音乐」: 《伤离别(原版)》- 黄霑 手机党少年们想听歌,请使劲儿戳(这里) @巴拉迪维 :睡...

小小编辑
今天
48
1

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部