基于 Spark 的数据分析实践

转载本文需注明出处:微信公众号EAWorld,违者必究。 引言: Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark主要包含了Spark C...

EAWorld
06/19
47
0
Apache Zeppelin 0.8.0 发布,协作数据分析

2018-06-28,Apache Zeppelin 0.8.0 发布,Docker 镜像同步更新,可前往官方下载页面下载。文档尚未更新为最新版本。 自上次发布以来,社区为改进 Apache Zeppelin 付出了巨大的努力,并在此...

wffger
2018/07/03
817
1
Spark RDDs vs DataFrames vs SparkSQL

简介 Spark的 RDD、DataFrame 和 SparkSQL的性能比较。 2方面的比较 单条记录的随机查找 aggregation聚合并且sorting后输出 使用以下Spark的三种方式来解决上面的2个问题,对比性能。 Using ...

yrgw
2017/07/11
0
0
分享两套Spark大数据视频教程

第一套: 课程目录: Scala基础与实践(上) Scala基础与实践(中) Scala基础与实践(下) Spark概述与编程模型(上) Spark概述与编程模型(下) 深入Spark内核(上) 深入Spark内核(下) Spark Streami...

查看地址
2014/11/17
52
3
HAWQ取代传统数仓实践(一)——为什么选择HAWQ

为了跟上所谓“大数据”技术的脚步,从两年前开始着手实践各种SQL-on-Hadoop技术,从最初的Hive,到SparkSQL,再到Impala,进行了一系列ETL、CDC、多维数据仓库、OLAP的实验。作为一名从业2...

wzy0623
2017/05/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多