文档章节

使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spark 源代码

鄂世嘉
 鄂世嘉
发布于 2015/01/23 15:03
字数 744
阅读 7K
收藏 51

精选30+云产品,助力企业轻松上云!>>>

准备工作

首先你的系统中需要安装了 JDK 1.6+,并且安装了 Scala。之后下载最新版的 IntelliJ IDEA 后,首先安装(第一次打开会推荐你安装)Scala 插件,相关方法就不多说了。至此,你的系统中应该可以在命令行中运行 Scala。我的系统环境如下:

  1. Mac OS X(10.9.5)
  2. JDK 1.7.71
  3. Scala 2.10.4
  4. IntelliJ IDEA 14
另外,最后还是建议大家开始先使用 pre-built 的 Spark,对 Spark 的运行、使用方法有所了解,编写了一些 Spark 应用程序后再展开源代码的阅读,并尝试修改源码,进行手动编译。

从 Github 导入 Spark 工程

打开IntelliJ IDEA 后,在菜单栏中选择 VCS→Check out from Version Control→Git,之后在 Git Repository URL 中填入 Spark 项目的地址,并指定好本地路径,如下图所示。

点击该窗口中的的 Clone 后,开始从 Github 中 clone 该项目,该过程试你网速而定,大概需要3-10分钟。

编译 Spark

当 clone 完毕后,IntelliJ IDEA 会自动提示你该项目有对应的 pom.xml 文件,是否打开。这里直接选择 Open 该 pom.xml 文件,然后系统会自动解析项目的相关依赖,该步骤也会因你的网络和系统相关环境,所需时间不同。

该步骤完成之后,请手动编辑 Spark 根目录下的 pom.xml 文件,找到其中指定 java 版本的那一行(java.version),根据你的系统环境,如果使用的是 jdk1.7 ,那么或许需要你将其值改成1.7(默认是1.6)。

之后打开 shell 终端,在命令行中进入刚才导入的 spark 项目根目录,执行

sbt/sbt assembly

该编译命令将全部采用默认的配置来编译 Spark,若想指定相关组件的版本,可以查看 Spark 官网中的 Build-Spark(http://spark.apache.org/docs/latest/building-spark.html),查看所有常用的编译选项。该过程目前不需要 VPN 即可完成,为了预估编译所需的时间,你可以在新开一个 shell 终端,不断查看 spark 项目目录的大小,我最终采用默认配置,编译成功后的 spark 目录大小为2.0G。

结束语

至此,为了检验你的编译结果,可以在命令行中进入 spark/bin 目录,运行 spark-shell,若一切都正常启动,则编译成功。若你修改了 Spark 的源码,可以重新使用 sbt 来进行编译,并且编译的时间不会像第一次编译那么长。如果你有任何问题,欢迎评论交流!

鄂世嘉

鄂世嘉

粉丝 17
博文 13
码字总数 12997
作品 0
嘉定
私信 提问
加载中
此博客有 3 条评论,请先登录后再查看。
IntelliJ IDEA Spark源码分析

在对 Spark 有了一定使用经验后,为了能够跟进 Spark 源代码的开发进展,对其源代码进行详细的阅读分析,本文详细说明了如何使用 IntelliJ IDEA 从 Github 上导入最新的 Spark 源代码,并对其...

MoksMo
2015/11/05
1.6K
0
spark最新源码下载并导入到开发环境下助推高质量代码(Scala IDEA for Eclipse和IntelliJ IDEA皆适用)(以spark2.2.0源码包为例)(图文详解)

  不多说,直接上干货!    前言   其实啊,无论你是初学者还是具备了有一定spark编程经验,都需要对spark源码足够重视起来。   本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,...

大数据和AI躺过的坑
2017/08/31
0
0
win7+idea+maven搭建spark源码阅读环境

1.参考。 利用IDEA工具编译Spark源码(1.60~2.20) https://blog.csdn.net/He11o_Liu/article/details/78739699 Maven编译打包spark(2.1.0)源码及出现问题的解决方案(win7+Intellij IDEA) ...

osc_7eikeu4r
2018/04/18
3
0
IDEA导入spark源代码调试

获取源码 官网下载源码到本地后,需要先进行编译,参考官方文档,编译很简单,这里使用4个线程,跳过tests,以此加速编译。这个编译会产生一些必要的源代码,如Catalyst项目下的,所以是必要...

火力全開
2017/10/26
580
0
Spark源码学习-windows使用idea搭建源码阅读集群

最近准备开始看spark源码,第一步当然是要搭建一个舒适的spark源码阅读环境,通过单步调试才能顺藤摸瓜的理清具体脉络,有助与提高阅读效率。在搭建环境过程中,遇到一些奇怪的错误,但居然都...

浮生物语QAQ
06/22
0
0

没有更多内容

加载失败,请刷新页面

加载更多

MetadataException:无法加载指定的元数据资源 - MetadataException: Unable to load the specified metadata resource

问题: All of a sudden I keep getting a MetadataException on instantiating my generated ObjectContext class. 突然间,我在实例化生成的ObjectContext类时不断收到MetadataException 。......

fyin1314
53分钟前
8
0
如何使用Java获取当前日期/时间 - How to get the current date/time in Java

问题: 用Java获取当前日期/时间的最佳方法是什么? 解决方案: 参考一: https://stackoom.com/question/LiRU/如何使用Java获取当前日期-时间 参考二: https://oldbug.net/q/LiRU/How-to-g...

富含淀粉
今天
14
0
SUSE收购Rancher Labs:押注云原生市场

导读:Gartner预测,到2024年,成熟的经济体中采用云原生应用程序和基础架构将使容器管理的使用率超过75%的大型企业,而2020年还不到35%。 7月8日,全球最大的独立开源公司SUSE获得收购Ran...

开源村OSV
今天
19
0
一文看尽飞桨PaddlePaddle最新升级:5大优势,更低门槛使用深度学习

本文作者:杨蕊1002 飞桨(PaddlePaddle)是国内唯一功能完备的端到端开源深度学习平台,集深度学习训练和预测框架、模型库、工具组件、服务平台为一体,其兼具灵活和效率的开发机制、工业级...

百度开发者中心
2019/07/17
16
0
Emacs和Vim之间的差异 - Differences between Emacs and Vim

问题: Without getting into a religious argument about why one is better than the other, what are the practical differences between Emacs and Vim? 在没有就为什么一个比另一个更好......

法国红酒甜
今天
14
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部