加载中
Apache Slider

Apache Slider 是一个 Yarn 应用,它可以用来在 Yarn 上部署并监控分布式应用。Slider 可以在应用运行期随意扩展或者收缩应用。目前它是 Apache 的孵化项目。 Yarn 上的应用在停止之后可以重...

2019/05/24 17:30
133
Apache Falcon数据集管理和数据处理平台

jopen 4年前发布 | 67K 次阅读 分布式/云计算/大数据 Apache Falcon Apache Falcon 是一个面向Hadoop的、新的数据处理和管理平台,设计用于数据移动、数据管道协调、生命周期管理和数据发现。...

Cloudera与Hortonworks宣布合并创建全球领先的下一代数据平台

去年 10 月份,大数据领域 Hadoop 巨头 Cloudera 与 Hortonworks 宣布合并,给业界带来不小震动。 这两个公司希望通过合并,创造出一个年收入达到 7.2 亿美元的新实体,并制定清晰的行业标准...

2019/05/06 13:48
330
各大容器云的技术栈对比及国内容器云创业公司融资情况

1. DaoCloud 风和投资,千万美金级别 2. 灵雀云 宽带资本,一千万美金 3. 时速云 2016-12-22,时速云宣布完成了数千万元 A 轮融资。本轮的投资方为朗玛峰创投。该公司是氪空间第四期团队。 ...

一篇万字长文讲清如何做数据治理

干货:解码OneData,阿里的数仓之路。 免费开通大数据服务:https://www.aliyun.com/product/odps 据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍...

2019/04/22 16:38
2.3K
docker三剑客docker-compose、docker-machine、swarm

Docker三大编排工具: Docker Compose:是用来组装多容器应用的工具,可以在 Swarm集群中部署分布式应用。 Docker Machine:是支持多平台安装Docker的工具,使用 Docker Machine,可以很方便...

数据中台和传统数仓的区别

中台系统把业务层同性的算法能力,服务能力,业务能力高度集成,有效组织 ,动态规划。更好的帮助上层业务。 今天就让我们看看关于数据中台的问答吧。 1 Q : 什么是数据中台? A : 数据中台是...

2019/04/18 19:27
3K
centos7 ambari2.6.1.5+hdp2.6.4.0 大数据集群安装部署

转载请务必注明原创地址为:http://dongkelun.com/2018/04/25/ambariConf/ 前言 本文是讲如何在centos7(64位) 安装ambari+hdp,如果在装有原生hadoop等集群的机器上安装,需要先将集群服务停...

supervisor

supervisor管理进程,是通过fork/exec的方式将这些被管理的进程当作supervisor的子进程来启动,所以我们只需要将要管理进程的可执行文件的路径添加到supervisor的配置文件中就好了。此时被管...

基于docker的大数据分布式集群

在需要搭建平台或配置环境时,按照传统的做法,需要下载相应软件包,然后进行配置,经过大量的操作后还需要进行功能测试,查看是否工作正常。如果不正常,则意味着更多的时间代价和不可控的风...

KSQL介绍:面向Apache Kafka的开源Streaming SQL引擎

我非常高兴地宣布KSQL,这是面向Apache Kafka的一种数据流SQL引擎。KSQL降低了数据流处理这个领域的准入门槛,为使用Kafka处理数据提供了一种简单的、完全交互的SQL界面。你不再需要用Java或...

2019/04/18 10:52
675
深入理解 Hive 分区分桶 (Inceptor)

分区是hive存放数据的一种方式。将列值作为目录来存放数据,就是一个分区。这样查询时使用分区列进行过滤,只需根据列值直接扫描对应目录下的数据,不扫描其他不关心的分区,快速定位,提高查...

2019/03/25 15:02
1.1K
数据仓库与数据湖之间有何区别?

数据仓库是一种具有正式架构的成熟的、安全的技术。它们存储经过全面处理的结构化数据,以便完成数据治理流程。数据仓库将数据组合为一种聚合、摘要形式,以在企业范围内使用,并在执行数据写...

livy的安装使用

livy简介 Livy是一个提供rest接口和spark集群交互的服务。它可以提交spark job或者spark一段代码,同步或者异步的返回结果;也提供sparkcontext的管理,通过restfull接口或RPC客户端库。Livy也简...

阿里 Blink 正式开源,重要优化点解读

Apache Flink 是德国柏林工业大学的几个博士生和研究生从学校开始做起来的项目,早期叫做 Stratosphere。2014 年,StratoSphere 项目中的核心成员从学校出来开发了 Flink,同时将 Flink 计算...

数据仓库、数据库的对比介绍与实时数仓案例

数据仓库和数据库的区别 一、数据仓库 什么是数据仓库? 数据仓库(Data Warehouse),可简写为DW或DWH,数据仓库,是为了企业所有级别的决策制定计划过程,提供所有类型数据类型的战略集合。它...

CDH + phoenix+ zeppelin

内容概述 1.安装及配置Phoenix 2.Phoenix的基本操作 3.使用Phoenix bulkload数据到HBase 4.使用Phoenix从HBase中导出数据到HDFS 测试环境 1.CDH5.11.2 2.RedHat7.2 3.Phoenix4.7.0 前置条件 ...

CDH5.15.0+spark1.6.0+hive1.1集群与zeppelin0.8.1+spark-notebook打通踩坑总结

二进制all包多为spark2 scala2.11的所以源码编译本地相关版本兼容的包的及其它hadoop hive yarn 版本,源码git下载编译排错见前边文章,下为编译合适版本后的安装过程: 1.zeppelin081/conf...

Spark-SQL、Hive多 Metastore、多后端、多库

【完美解决】Spark-SQL、Hive多 Metastore、多后端、多库 SparkSQL 支持同时连接多种 Metastore,包括Atlas2(PB),Hive 0.12+几种格式。用户可以在一条SQL语句中操作来自多个 Metastore 的...

2019/02/26 11:00
913
Webpack介绍

一:Webpack介绍 Webpack 是一个前端资源加载/打包工具。它将根据模块的依赖关系进行静态分析,然后将这些模块按照指定的规则生成对应的静态资源。 webpack是一个前端构建工具。那么什么是构...

2019/02/21 14:38
112

没有更多内容

加载失败,请刷新页面

返回顶部
顶部