在jupyter中使用Spark
在jupyter中使用Spark
雨中人X 发表于1年前
在jupyter中使用Spark
  • 发表于 1年前
  • 阅读 210
  • 收藏 0
  • 点赞 0
  • 评论 0

腾讯云 技术升级10大核心产品年终让利>>>   

在Jupyter中使用Spark

Jupyter 是什么?

Jutpyer 官网

> The Jupyter Notebook is a web application that allows you to create and share documents that contain live code, equations, visualizations and explanatory text. Uses include: data cleaning and transformation, numerical simulation, statistical modeling, machine learning and much more.

Jupyter 是从IPython中分离出来的一个项目。其是一个Web应用,可以方便的使用浏览器创建文档,编写程序,以可视化的方式展示数据。其原始目的为个给Python设计的,但现在可以支持多种语言,Scala就是其中一种。

安装软件

运行环境

  • 操作系统 Linux
  • Python 3
  • Scala 2.11.8
  • Spark 1.6.2 (由于toree包现在支持1.6 所以不能用最新的Spark 2.0)
  • Apache Torre 0.1.0.dev8 (可以让Jupyter 支持Scala)

首先下载 Scala和Spark

Scala 官网
Spark 官网

注:我用的是的Debian系列的Linux,可以在Scala官网下载相应的Linux安装包
wget http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.deb
wget http://mirror.bit.edu.cn/apache/spark/spark-1.6.2/spark-1.6.2-bin-hadoop2.6.tgz

安装 Scala,Spark

sudo dpkg -i scala-2.11.8.deb
sudo tar -xzf spark-1.6.2-bin-hadoop2.6.tgz -C /opt

安装Jupyter和toree

pip3 install jupyter --user   
pip3 install toree --user

--user 指定安装方式为用户模式,默认安装在$HOME/.local/bin 只需将此路径加入环境变量即可

export PATH="$HOME/.local/bin:$PATH"

配置Spark和toree

jupyter toree install --spark_home=/opt/spark-1.6.2-bin-hadoop2.6  --user

启动Jupyter

jupyter-notebook

Jupyter

新建一个Kernel

Toree

测试一下

测试

这里的每一个输入框都是一个Scala解释器,并且带有SparkContext。可以当作是一个Spark-Shell

使用Jupyter有几个优势

  • 方便修改代码
  • 方便查看结果
  • 可以把操作记录生成文档
  • 可以远程访问(只需将Jupyter 端口绑定到0.0.0.0即可)

全民放假,今天就写到这吧

标签: Scala Spark Jupyter
共有 人打赏支持
粉丝 8
博文 57
码字总数 15326
×
雨中人X
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: