文档章节

深入浅出FEA-spk,有原理有案例接地气!

openfea
 openfea
发布于 2017/08/10 14:16
字数 825
阅读 31
收藏 0
点赞 0
评论 0

随着大数据和云计算时代的到来,数据规模越来越大,随之出现了很多大数据框架,比如Hadoop用来实现分布式文件存储的HDFS,MapReduce、Spark、Storm等计算框架,Hbase,Mongob等数据库,Hive数据仓库。

为了更好的处理海量数据,使得不懂Spark的数据分析人员可以很方便的使用Spark来进行数据分析和挖掘,FEA研发了FEA-spk技术。FEA-spk是以Spark为内核引擎,提供了交互式的分析,它的功能几乎覆盖了所有的spark操作,并且可以对结果数据进行可视化展示。它可以和众多的大数据计算框架结合,比如hive,hbase,mongodb,hdfs等。可以保存和读取各种文件格式,比如parquet,avro,orc,json,csv等文件格式,真正做到了和大数据进行融合!

我们今天,从架构、运行原理、任务的查看和监控、内存的分配与调优、DF表转化等方面,深入浅出认识一下FEA-spk。

1. FEA-spk的架构

2. FEA-spk运行原理

FEA-spk采用yarn-client模式运行在hadoop的yarn上。在使用FEA-spk的时候,在客户端的FEA界面先要创建一个spk的连接,如下图所示:

这个时候就会在Hadoop yarn界面启动一个应用,如下图所示:

然后就可以加载数据,对数据进行分析了。

FEA-spk支持多种数据源,最常见的当然是HDFS了,它是分布式存储文件系统,当我们要处理的数据量很大,比如TB级的时候,就可以把数据放在HDFS上面,然后使用FEA-spk把HDFS数据加载到我们使用的Spark集群的内存里面,克服了单机内存不足的问题,使得分布式内存计算成为了可能。

下面我们来加载一个存放在hdfs目录的csv文件

随后可以对DF表进行各种各样的操作,比如group,agg等,这里不再叙述了(在FEA官方网站有FEA-spk的操作手册,很详细的介绍了各种操作)。

最后,对计算后的结果进行保存,比如保存到hdfs,hive,mysql中等。

3. FEA-spk运行任务的查看和监控

我们在运行FEA-spk的时候,需要查看运行了多长时间,划分为几个stage,

每个stage的task数,运行了多长时间等,按照以下的步骤进行操作.

点击ApplicationMaster,进入下面的页面

然后就可以查看各种指标了

4. FEA-spk内存的分配与调优

由于FEA-spk是基于内存进行计算的,所以对内存的分配就显得尤为重要。

一般要调节上图的几个参数。在FEA客户端的$SPARK_HOME/conf的

spark-defaults.conf目录

5. FEA-spk的DF表和FEA的DF表转化

如果我们需要对FEA-spk的DF表转化为FEA的DF表,只需要下面一条命令就可以了

df=@udf sdf by spk.to_DF

同理,如果要转化为FEA-spk的DF表,需要运行以下一条命令

sdf=@udf spk,df by spk.to_SDF

以上就是FEA-spk技术的完整介绍,希望大家多多支持哦。

© 著作权归作者所有

共有 人打赏支持
openfea
粉丝 13
博文 86
码字总数 95615
作品 1
杭州
其他
Spark2.x与ElasticSearch的完美结合

ElasticSearch(简称ES)是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RestFul web接口。ElasticSearch是用Java开发的,并作为Apache许可条款下的开放源...

openfea
2017/10/19
0
0
Spark2.x写入Elasticsearch的性能测试

一、Spark集成ElasticSearch的设计动机 ElasticSearch 毫秒级的查询响应时间还是很惊艳的。其优点有: 1. 优秀的全文检索能力 2. 高效的列式存储与查询能力 3. 数据分布式存储(Shard 分片) 相...

openfea
2017/10/27
0
0
用机器学习构建模型,进行信用卡反欺诈预测

本文通过利用信用卡的历史交易数据进行机器学习,构建信用卡反欺诈预测模型,提前发现客户信用卡被盗刷的事件。 1. 数据的下载和数据介绍 数据的下载地址为 https://www.kaggle.com/dalpozz...

openfea
2017/11/07
0
0
新书《深入浅出强化学习:原理入门》已上市

时光匆匆,转眼距离上次写贴已经一个多月了,其间几次提笔都被琐事烦扰,如今新书《深入浅出强化学习:原理入门》已在京东,亚马逊等网站开始预售,借此时机才有机会继续更新帖子。 这本书的...

天津包子馅儿
2017/12/21
0
0
用SPK技术分析,泰坦尼克号沉船之后哪些人活下来了

本文采用Kaggle中比较知名的数据集Titanic Machine Learning from Disaster作为分析数据源,该数据集被评为五大最适合数据分析练手项目之一。 分析目的是根据训练集预测部分乘客在沉船事件中...

openfea
2017/11/07
0
0
老男孩的MySQL私房菜新书视频1-9章先堵为快

201705老男孩的MySQL私房菜深入浅出精品视频课程第1-2章 说明:关系数据库及非关系数据库的介绍,产品发布知识 http://edu.51cto.com/course/course_id-9073.html 201705老男孩的MySQL私房菜...

老男孩oldboy
2017/06/14
0
0
OSC 第 77 期高手问答 — .NET 开发

OSCHINA 本期高手问答 ( 6月3日- 6月9日) 我们请来了@IT周见智(周见智)为大家解答关于 .NET 开发方面的问题。 周见智,资深.NET开发工程师,公司首席系统架构师。在软件架构、软件设计模式...

叶秀兰
2015/06/03
5.8K
51
Amaze UI 发布 2.0 正式版,这款框架有点酷

Amaze UI 是一款还不错的前端框架,欢迎抢鲜体验。 Amaze UI 发布 2.0 正式版啦,以下是 Amaze UI 技关于2.0 版本的更新介绍: 如开发路线图所言,2.0.0 主要是基础架构的变化,包括: ✔ 转...

云适配
2014/12/08
31.2K
69
为什么企业员工对移动学习的『接受度』是一个被动接受过程?

英国伯明翰大学的Sharples教授在2000年就指出:先进的且快速发展的移动技术正推动e-learning向M-learning转变。十几年过去了,Sharples教授的预想成为现实,越来越多的企业开始运用移动学习来...

移动学习前沿
2016/06/07
0
0
CCTC 2017展商征集令:拳拳之心,虚左以待

备受瞩目的2017·中国云计算技术大会(CCTC,CloudComputingTechnologyConference)将于5月18—19日在北京朝阳门悠唐皇冠假日酒店隆重召开!作为中国云计算领域的顶级盛会,2017年CCTC将凭借...

玄学酱
04/16
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Java基础——异常

声明:本栏目所使用的素材都是凯哥学堂VIP学员所写,学员有权匿名,对文章有最终解释权;凯哥学堂旨在促进VIP学员互相学习的基础上公开笔记。 异常处理: 可以挖很多个陷阱,但是不要都是一样...

凯哥学堂
25分钟前
0
0
180723-Quick-Task 动态脚本支持框架之结构设计篇

文章链接:https://liuyueyi.github.io/hexblog/2018/07/23/180723-Quick-Task-动态脚本支持框架之结构设计篇/ Quick-Task 动态脚本支持框架之结构设计篇 相关博文: 180702-QuickTask动态脚本...

小灰灰Blog
28分钟前
0
0
SBT 常用开发技巧

SBT 一直以来都是 Scala 开发者不可言说的痛,最主要的原因就是官方文档维护质量较差,没有经过系统的、循序渐进式的整理,导致初学者入门门槛较高。虽然也有其它构建工具可以选择(例如 Mill...

joymufeng
33分钟前
0
0
HBase in Practice - 性能、监控及问题解决

李钰(社区ID:Yu Li),阿里巴巴计算平台事业部高级技术专家,HBase开源社区PMC&committer。开源技术爱好者,主要关注分布式系统设计、大数据基础平台建设等领域。连续4年基于HBase/HDFS设计和...

中国HBase技术社区
34分钟前
1
0
ES18-JAVA API 批量操作

1.批量查询 Multi Get API public static void multiGet() {// 批量查询MultiGetResponse response = getClient().prepareMultiGet().add("my_person", "my_index", "1")// 查......

贾峰uk
38分钟前
0
0
SpringBoot2.0使用health

1,引入actuator <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-actuator</artifactId></dependency> 2,application.properties ......

暗中观察
45分钟前
0
0
阿里巴巴Java开发规约

###编程规约 命名风格 【强制】代码中的命名均不能以下划线或美元符号开始,也不能以下划线或美元符号结束 【强制】代码中的命名严禁使用拼音与英文混合的方式,更不允许直接使用中文的方式。...

简心
50分钟前
0
0
如何用TypeScript来创建一个简单的Web应用

转载地址 如何用TypeScript来创建一个简单的Web应用 安装TypeScript 获取TypeScript工具的方式: 通过npm(Node.js包管理器) npm install -g typescript 构建你的第一个TypeScript文件 创建...

durban
54分钟前
0
0
分享好友,朋友圈自定义分享链接无效

这个问题是微信6.5.6版本以后,修改了分享规则:分享的连接必须在公众号后台设定的js安全域名内

LM_Mike
今天
0
0
2018年7月23日课程

一、LVS-DR介绍 director分配请求到不同的real server。real server 处理请求后直接回应给用户,这样director负载均衡器仅处理客户机与服务器的一半连接。负载均衡器仅处理一半的连接,避免了...

人在艹木中
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部