文档章节

Spark从入门到上手实战

佳佳发生的发生
 佳佳发生的发生
发布于 2017/08/20 20:58
字数 2181
阅读 12
收藏 1
点赞 0
评论 0

Spark从入门到上手实战 
课程观看地址:http://www.xuetuwuyou.com/course/186
课程出自学途无忧网:http://www.xuetuwuyou.com
讲师:轩宇老师
课时数:127课时

课程简介:
Spark属于新起的基于内存处理海量数据的框架,由于其快速被众公司所青睐。Spark 生态栈框架,非常的强大,可以对数据进行批处理、流式处理、SQL 交互式处理及机器学习和Graphx 图像计算。目前绝大数公司都使用,主要在于 Spark SQL 结构化数据的处理,非常的快速,高性能。
基于Spark Core之上的流式处理和结构化数据查询,已被众多公司青睐,在企业中使用最广泛,很多大数据公司都在将以往RDBMS和 Hive中的数据处理,迁移使用Spark SQL。

第1章:SCALA编程(一)
1.大数据分析框架概要、Spark课程学习计划及建议 
2.为什么学习SCALA语言及SCALA语言介绍和学习提纲 
3.SCALA环境搭建及IDEA安装配置(JAVA安装、SCALA安装及IDEA安装))
4.SCALA语言HelloWorld及安装总结(作业LINUX系统安装)
5.SCALA中变量的声明(两种方式) 
6.SCALA中数据类型及操作符
7.IF语句及WHILE循环、循环表达式及FOR基本使用 
8.FOR循环深入讲解及yield功能 
9.SCALA中的Breaks使用
10.函数的定义(如何确定一个函数)
11.函数的定义(各种情况下函数定义与使用) 
12.函数的作用域、默认参数函数和名称参数函数使用详解
13.变长参数函数和内部函数使用详解
14.匿名函数定义与使用 
15.高阶函数定义与使用 
16.深入高阶函数的使用 


第2章:SCALA编程(二)
17.数组Array和ArrayBuffer 
18.SCALA中集合类Collections概要讲解
19.集合类之List和ListBuffer创建与基本操作 
20.集合List中常见高阶函数使用详解(一) 
21.集合List中常见高阶函数使用详解(二)
22.SCALA中元组创建与使用 
23.集合类之Set及常见函数使用 
24.集合类之Map创建与遍历 
25.集合类综合应用:实现WordCount词频统计 
26.类Class的定义与创建对象 
27.对象object及apply方法 
28.类class的构造方法(主构造方法和附属构造方法)
29.SCALA中的Trait初步使用 
30.SCALA中异常的处理及模式匹配初步使用
31.模式匹配之匹配类型、元组
32. CaseClass及在模式匹配中使用
33.Option(Some、Node)及模式匹配使用 
34.SCALA中隐式转换详解(结合案例)
35.SCALA中隐式参数详解(结合案例) 
36.综合回顾复习SCALA的所有知识要点 


第3章:Spark Core(一)
37.SPARK框架学习的基础及与Spark初步认识
38.Spark Feature详解及处理数据三步走策略 
39.Spark 学习资源、源码下载及编译详解 
40.SPARK 安装目录及使用的方便优点 
41.Local Mode配置、启动spark-shell及运行程序测试
42.编程实现WordCount程序(类比MapReduce实现思路)
43.Spark Local Mode深入剖析详解 
44.使用IDEA创建MAVEN工程及配置依赖 
45.编写Spark Application开发模板 
46.深入WordCount程序分析(sortByKey和top函数使用)
47.如何导入Spark源码至IDEA中(Windows下) 
48.Spark Standalone 集群架构、配置、启动深入详解及运行spark-shell测试
49.浅析Spark Application运行Cluster组成及spark-submit提交应用
50.深入剖析Spark Application中Job、Stage和Task关系
51.案例:对原始数据进行清洗过滤及实现每日浏览量统计 
52.案例:实现每日访客数统计及使用HiveQL进行结果验证、打包运行SparkStandalone集群


第4章:Spark Core(二)
53.Spark Application运行的Deploy Mode详解(结合案例演示)
54.使用spark-submit提交应用运行Standalone集群及性能调优
55.Spark Application运行的EventLog启用
56.Spark HistoryServer配置及使用 
57.RDD是什么及创建方式 
58.RDD操作类型及持久化详解
59.RDD中常用的Transformation和Action详解(一)
60.RDD中常用的Transformation和Action详解(二)
61.案例:分组排序TopKey实现及如何处理数据倾斜(分阶段聚合)
62.SparkOnYarn:运行SparkApplication在YARN上(编写脚本)
63.配置HIstoryServer及运行在YARN的两种Deploy Mode架构
64.官方案例:读取日志数据及正则解析(CASE CLASS) 
65.官方案例:依据业务编码实现及熟悉RDD API 
66.官方案例:其他业务编码实现测试及过滤数据 
67.官方案例:RDD#top函数使用(自定义排序规则)及提交运行YARN集群
68.内核调度:Spark Job Scheduler详解(一) 
69.内核调度:Spark Job Scheduler详解(二)


第5章:Spark SQL
70.SparkSQL的重要性及Spark2.x的生态圈 
71.SparkSQL前世今生(Hive、Shark、SparkSQL)及初步使用说明
72.案例分析:基于DataFrame和SQL分析数据(一) 
73.案例分析:基于DataFrame和SQL分析数据(二) 
74.SparkSQL Introduction及处理数据的方式 
75.SparkSQL与Hive集成配置详解 
76.基于SQL和DSL方式分析处理Hive表的数据 
77.SparkSQL中提供的spark-sql命令行的使用
78.SparkSQL中ThriftServer配置使用详解 
79.SparkSQL性能优化及DataFrame是什么 
80.SparkSQL读取多种数据数据实例 
81.DataFrame实现多数据源数据的关联分析
82.SparkSQL读取AVRO格式数据详解
83.SparkSQL读取CSV或TSV格式数据详解 
84.自定义schema的方式转换RDD为DataFrame及直接运行SQL在数据文件上
85.SparkSQL中自带函数的使用及如何自定义UDF、注册和使用
86.Spark 2.x中SparkSQL基本使用(一) 
87.Spark 2.x中SparkSQL基本使用(二) 


第6章:Spark Streaming及Kafka
88.大数据处理的类型、流式计算的框架及Streaming内容概要 
89.SparkStreaming是什么、使用案例及数据处理流程 
90.官方Example案例:词频统计运行详解 
91.SparkStreaming编程实现从Socket读取数据实时统计分析
92.深入SparkStreaming运行的工作原理
93.深度剖析batch interval和block interval及性能优化
94.编程模型:从源码深入剖析DStream(StreamingContext、DStream操作)
95.深入详解DStream#foreachRDD使用
96.Apache Kafka介绍及架构详解 
97.Apache Kafka安装、部署、启动 
98.创建Topic、发送和消费数据及深入理解KAFKA数据的存储
99.剖析分享Kafka企业技术架构及使用(结合Kafka Meetup分享)
100.SparkStreaming与Flume和Kafka两种集成方式详解
101.采用Pull方式与Kafka集成进行数据分析处理 
102.状态Stateful实时统计updataStateByKey使用
103.SparkStreaming实时分析应用的高可用性
104.实时窗口Window统计详解(reduceByKeyAndWindow使用)


第7章:基于Java和Python的Spark编程
105.基于Java和Python语言的Spark开发的提纲及学习方式
106.基于JAVA语言编写Spark Application编程模板、读取数据及测试监控
107.案例WordCount:结合源码编码实现JAVA语言编程 
108.案例WordCount:对统计的词频进行降序排序(涉及TopKey)及作业说明
109.案例分析:基于JAVA实现如何将RDD转换为DataFrame
110.案例分析:使用SQL进行数据分析
111.案例分析:使用DSL进行数据分析及自定义UDF注册使用 
112.SparkStreaming基于JAVA实现从Socket读取数据WordCount统计及测试
113.结合案例实现JAVA编程DStream#foreachRDD和从KAFKA读取数据
114结合案例讲解基于JAVA的updateState和window编程及作业
115.Python介绍、Windows下2.7的安装及测试
116.PyCharm安装、设置及创建工程和测试
117.PySpark第三方包的安装配置 
118.基于Python的SparkCore编程模板 
119.并行化本地集合创建RDD及RDD初步使用 
120.Python中函数的定义及匿名函数lambda使用 
121.PySpark实现WordCount程序及测试 
122.PySpark实现从HDFS读取数据实现WordCount(属性配置)
123.深入WordCount程序之SortByKey 
124.深入WordCount程序之TopKey 
125.Anaconda2版本、安装、配置、使用及测试(针对pyspark编程)
126.Spark自带交互式pyspark命令的使用 
127.pyspark底层架构及如何提交pyspark程序运行 

相关课程推荐:
Spark全面精讲(基于Spark2版本+含Spark调优+超多案例)
课程观看地址:http://www.xuetuwuyou.com/course/149

© 著作权归作者所有

共有 人打赏支持
佳佳发生的发生
粉丝 0
博文 1
码字总数 2181
作品 0
成都

暂无文章

用Python绘制红楼梦词云图,竟然发现了这个!

Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具,下面我们来看看如何使用Python,来读红楼梦,绘制小...

猫咪编程
15分钟前
0
0
Java中 发出请求获取别人的数据(阿里云 查询IP归属地)

1.效果 调用阿里云的接口 去定位IP地址 2. 代码 /** * 1. Java中远程调用方法 * http://localhost:8080/mavenssm20180519/invokingUrl.action * @Title: invokingUrl * @Description: * @ret......

Lucky_Me
38分钟前
1
0
protobuf学习笔记

相关文档 Protocol buffers(protobuf)入门简介及性能分析 Protobuf学习 - 入门

OSC_fly
昨天
0
0
Mybaties入门介绍

Mybaties和Hibernate是我们在Java开发中应用的比较多的两个ORM框架。当然,目前Mybaties正在慢慢取代Hibernate,这是因为相比较Hibernate而言Mybaties性能更好,响应更快,更加灵活。我们在开...

王子城
昨天
2
0
编程学习笔记之python深入之装饰器案例及说明文档[图]

编程学习笔记之python深入之装饰器案例及说明文档[图] 装饰器即在不对一个函数体进行任何修改,以及不改变整体的原本意思的情况下,增加函数功能的新函数,因为这个新函数对旧函数进行了装饰...

原创小博客
昨天
0
0
流利阅读笔记33-20180722待学习

黑暗中的生物:利用奇技淫巧快活生存 Daniel 2018-07-22 1.今日导读 如果让你在伸手不见五指的黑暗当中生存,你能熬过几天呢?而大千世界,无奇不有。在很多你不知道的角落,有些生物在完全黑...

aibinxiao
昨天
6
0
Hystrix降级逻辑中如何获取触发的异常

通过之前Spring Cloud系列教程中的《Spring Cloud构建微服务架构:服务容错保护(Hystrix服务降级)》一文,我们已经知道如何通过Hystrix来保护自己的服务不被外部依赖方拖垮的情况。但是实际...

程序猿DD
昨天
1
0
gin endless 热重启

r := gin.New()r.GET("/", func(c *gin.Context) {c.String(200, config.Config.Server.AppId)})s := endless.NewServer(":8080", r)s.BeforeBegin = func(add string) ......

李琼涛
昨天
1
0
JAVA模式之代理模式

平时一直在用spring,spring中最大的特效IOC和AOP,其中AOP使用的就是代理模式.闲着无聊,随手写了一个代理模式,也记录下代理模式的实现Demo. 比如现在有一个场景是:客户想要增加一个新的功能,...

勤奋的蚂蚁
昨天
0
0
ES15-JAVA API 索引管理

1.创建连接 创建连接demo package com.sean.esapi.client;import java.net.InetSocketAddress;import org.elasticsearch.action.get.GetResponse;import org.elasticsearch.clien......

贾峰uk
昨天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部