加载中
SparkSQL JDBC连接 mysql

SparkSQL JDBC连接 mysql

2016/07/01 12:21
360
mysql导入导出带事物函数

phpmyadmin的导入导出,会有大小限制和事务与函数不能导出的情况,所以利用命令行处理

swoole 安装测试

swoole 是 PHP的异步、并行、高性能网络通信引擎

2016/08/25 16:25
503
Spark 小内容

Spark 的一些内容 1.函数作用以及返回值类型 foreach flatMap 返回的迭代器的所有内容构成新的RDD 是一个序列化的数据而不是单个数据项-- a Seq map map:对集合中每个元素进行操作。 flatMa...

2019/04/11 15:26
14
数据分层

1.数据计算层 01.数据计算层-主要考虑方面 计算平台:离线数据计算 实时数据计算 管理:元数据模型整合和应用、 数据表的规范命名 存储元数据: 运行数据: 2.计算的数据分层:数据加工链路 ...

2019/04/11 16:11
92
Spark 数据倾斜

什么是数据倾斜 比方WordCount中某个Key对应的数据量非常大的话,就会产生数据倾斜,导致两个后果: OM(单或少数的节点); 拖慢整个Job执行时间(其他已经完成的节点都在等这个还在做的节点...

2019/03/21 09:57
509
大数据调度工具oozie详细介绍

背景 之前项目中的sqoop等离线数据迁移job都是利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选择...

FAQ

运行环境 EMR版本: EMR-3.14.0 集群类型: HADOOP 软件信息: HDFS2.7.2 / YARN2.7.2 / Hive2.3.3 / Ganglia3.7.2 / Zookeeper3.4.13 / Spark2.3.1 / HBase1.1.1 / HUE4.1.0 / Zeppelin0.8.0 /...

分布式系统基本原理

三元组 其实,分布式系统说白了,就是很多机器组成的集群,靠彼此之间的网络通信,担当的角色可能不同,共同完成同一个事情的系统。如果按”实体“来划分的话,就是如下这几种: 节点 -- 系统...

hive 实战总结

hive 体系架构 启动 hive 命令行 进入hive安装目录,输入bin/hive的执行程序,或者输入 hive –service cli hive脚本的执行方式大致有三种 hive可以直接敲hive命令进入interactive模式,直接...

2019/04/10 10:36
1.6K

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部