文档章节

spark filter testing

RyaneLuo
 RyaneLuo
发布于 2017/04/06 17:56
字数 180
阅读 67
收藏 0

~/spark-2.0.3-SNAPSHOT-bin-shield-stats-spark$ ./bin/pyspark
Python 2.7.12 (default, Nov 19 2016, 06:48:10)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
17/04/06 02:43:27 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.0.3-SNAPSHOT
      /_/

Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
>>> spark
<pyspark.sql.session.SparkSession object at 0x7f3e34700410>
>>> x = sc.paralleize([1,2,3,4,5,6,7,8,9,10,11,12],2)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'SparkContext' object has no attribute 'paralleize'
>>> x = sc.parallelize([1,2,3,4,5,6,7,8,9,10,11,12],2)
>>> y = x.filter(lambda x: x % 2 = 0)
  File "<stdin>", line 1
SyntaxError: lambda cannot contain assignment
>>> y = x.filter(lambda x: x % 2 == 0)
>>> y.collect()
[2, 4, 6, 8, 10, 12]                                                            
>>> x
ParallelCollectionRDD[0] at parallelize at PythonRDD.scala:475
>>> x.collect()
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
>>> y3 = x.filter(lambda x: x % 3 == 0)
>>> y3.collect()
[3, 6, 9, 12]
>>> x.collect()
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
>>>

© 著作权归作者所有

RyaneLuo

RyaneLuo

粉丝 13
博文 140
码字总数 28387
作品 0
深圳
高级程序员
私信 提问
Spark 简易入门教程(Java的微型Web框架)

今天在reddit上看到了这个有趣的Java Web框架,就写了几个例子稍微感受了一下,顺手把它的文档也翻译的了一下。 一、Spark是什么 Spark是一个微型的Java Web框架,它的灵感来自于Sinatra,它...

小编辑
2011/05/24
38.9K
7
Spark学习记录(一)Spark 环境搭建以及worldCount示例

安装Spark ------------------- 首先,安装spark之前需要先安装scala,并且安装scala的版本一定要是将要安装的spark要求的版本。比如spark2.1.0 要求scala 2.11系列的版本,不能多也不能少 ...

我爱春天的毛毛雨
2018/11/14
205
0
利用KNIME建立Spark Machine learning模型 2:泰坦尼克幸存预测

本文利用KNIME基于Spark决策树模型算法,通过对泰坦尼克的包含乘客及船员的特征属性的训练数据集进行训练,得出决策树幸存模型,并利用测试数据集对模型进行测试。 1、从Kaggle网站下载训练...

forestwater
2018/05/09
0
0
Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和co

首先以spark的本地模式测试spark API,以local的方式运行spark-shell: 先从parallelize入手吧: map操作后结果: 下面看下 filter操作: filter执行结果: 我们用最正宗的scala函数式编程的...

stark_summer
2015/01/27
62
0
在 Databricks 可获得 Spark 1.5 预览版

我们兴奋地宣布,从今天开始,Apache Spark1.5.0的预览数据砖是可用的。我们的用户现在可以选择提供集群与Spark 1.5或先前的火花版本准备好几个点击。 正式,Spark 1.5预计将在数周内公布,和社区...

stark_summer
2015/08/25
60
0

没有更多内容

加载失败,请刷新页面

加载更多

用 Sphinx 搭建博客时,如何自定义插件?

之前有不少同学看过我的个人博客(http://python-online.cn),也根据我写的教程完成了自己个人站点的搭建。 点此:使用 Python 30分钟 教你快速搭建一个博客 为防有的同学不清楚 Sphinx ,这...

王炳明
昨天
2
0
黑客之道-40本书籍助你快速入门黑客技术免费下载

场景 黑客是一个中文词语,皆源自英文hacker,随着灰鸽子的出现,灰鸽子成为了很多假借黑客名义控制他人电脑的黑客技术,于是出现了“骇客”与"黑客"分家。2012年电影频道节目中心出品的电影...

badaoliumang
昨天
10
0
很遗憾,没有一篇文章能讲清楚线程的生命周期!

(手机横屏看源码更方便) 注:java源码分析部分如无特殊说明均基于 java8 版本。 简介 大家都知道线程是有生命周期,但是彤哥可以认真负责地告诉你网上几乎没有一篇文章讲得是完全正确的。 ...

彤哥读源码
昨天
13
0
jquery--DOM操作基础

本文转载于:专业的前端网站➭jquery--DOM操作基础 元素的访问 元素属性操作 获取:attr(name);$("#my").attr("src"); 设置:attr(name,value);$("#myImg").attr("src","images/1.jpg"); ......

前端老手
昨天
6
0
Django的ChoiceField和MultipleChoiceField错误提示,选择一个有效的选项

在表单验证时提示错误:选择一个有效的选项 例如有这样一个表单: class ProductForm(Form): category = fields.MultipleChoiceField( widget=widgets.SelectMultiple(), ...

编程老陆
昨天
13
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部