加载中
使用CDW启用自助服务业务见解

向中央IT提出的数据仓库服务请求可能需要数周或数月才能完成。大型组织中的中央IT团队面临着因市场复杂性和内部业务线(LoB)需求而引起的IT项目激增。同时,中央IT必须兼顾成本和风险。在数...

Kudu使用布隆过滤器优化联接和过滤

介绍 在数据库系统中,提高性能的最有效方法之一是避免执行不必要的工作,例如网络传输和从磁盘读取数据。Apache Kudu实现此目的的方法之一是通过使用扫描器支持列谓词。将列谓词过滤器下推到...

NiFi –混合云环境中的数据移动赋能者

Cloudera为客户提供了一套在本地和云中运行的一致解决方案,以确保无论其部署在何处,客户都可以成功应对其所有用例。在这种混合云策略中,Cloudera DataFlow在Cloudera Data Platform私有云...

有关Apache NiFi的5大常见问题

在过去的几周中,我进行了四个现场的NiFi演示会议,在不同地理区域有1000名与会者,向他们展示了如何使用NiFi连接器和处理器连接到各种系统。我要感谢大家参与和出席这些活动!如今,当在家中...

CDP平台上的A-Z数据冒险

在此博客中,我们将带您进行基于角色的数据冒险,并附带简短的演示,以向您展示A-Z数据工作人员的工作流程,该工作流程通过自助服务、无缝集成和云原生技术得到了加速和简化。您将学习CDP平台...

Fair Scheduler和Capacity Scheduler比较

本节提供有关选择Capacity Scheduler的好处和性能改进的信息,以及Fair Scheduler和Capacity Scheduler之间的功能比较。 为什么需要Scheduler? Cloudera Data Platform(CDP)在YARN群集中仅...

Ranger Hive-HDFS ACL同步

Ranger Hive-HDFS ACL同步概述 Ranger资源映射服务器(Resource Mapping Server:RMS)可以将访问策略从Hive自动转换为HDFS。 关于Hive-HDFS ACL同步 旧版CDH用户使用Apache Sentry中的Hive策...

Spark 3.0如何提高SQL工作负载的性能

在几乎所有处理复杂数据的部门中,Spark很快已成为跨数据和分析生命周期的团队的事实上的分布式计算框架。 新的Adaptive Query Execution框架(AQE)是Spark 3.0最令人期待的功能之一,它可以...

在TPC-DS基准测试中CDP数据仓库的性能比EMR快3倍

在先前有关CDW性能的博客文章中,我们将Azure HDInsight与CDW进行了比较。在此博客文章中,我们使用TPC-DS 2.9基准测试比较了使用Cloudera数据平台(CDP )上的Cloudera数据仓库(CDW)的Apa...

Cloudera 运营数据库提供事务支持

我们很高兴与大家分享在向Cloudera的Operational Database添加ANSI SQL、二级索引、星型模式和视图功能之后,我们将在接下来的几个月中引入分布式事务支持。 什么是ACID? 数据库设计的ACID模...

使用YCSB进行HBase性能测试

在集群上运行任何性能基准测试工具时,关键的决定始终是应该使用什么数据集大小进行性能测试,并且在这里我们演示了为什么在运行HBase性能时选择“合适的”数据集大小非常重要在您的集群上进...

2020/12/28 13:00
70
CDP PVC基础版的新功能

如果您是CDH或HDP用户,则除了从CDH和HDP版本转移到CDP的功能之外,还可以查看CDP私有云基础版中可用的新功能。 从CDH到CDP的新功能 Ranger2.0 动态行过滤和列屏蔽 基于属性的访问控制和Spa...

将CDH就地升级到CDP PvC基础版概览

从CDH就地升级到CDP私有云基础版的高级升级过程。 升级CDP私有云基础包括两个主要步骤,即升级Cloudera Manager和升级集群。您不需要同时升级Cloudera Manager和集群,但是Cloudera Manager和...

2020/12/24 13:00
0
Cloudera 复制插件为Hbase启用平台复制

Cloudera数据平台(CDP)是Cloudera的最新大数据产品。Apache HBase和Phoenix作为CDP平台的一部分。这两个组件以3种形态提供: 对于本地部署,可用的方式类似于CDH和HDP(在CDP私有云产品中)...

CDP中的Kafka概览

Apache Kafka是一个高性能、高可用性、冗余的流消息平台。 Kafka简介 Kafka的功能很像发布/订阅消息系统,但具有更高的吞吐量、内置分区、复制和容错能力。对于大规模消息处理应用程序来说,...

CDP中Kafka配置

Apache Kafka是一个高性能、高可用性、冗余的流消息平台。 Kafka的功能很像发布/订阅消息系统,但具有更高的吞吐量、内置分区、复制和容错能力。对于大规模消息处理应用程序来说,Kafka是一个...

Impala Schema 设计原则

使用本主题中的原则可以构建优化且可伸缩的Schema,并与现有的数据管理流程很好集成。 与基于文本的格式相比,首选二进制文件格式 为了节省空间并提高内存使用率和查询性能,请对任何大型或密...

2020/11/26 13:00
36
Cloudera软件分发管理

Cloudera Manager的主要功能是安装和升级Cloudera Runtime和其他托管服务。Cloudera Manager支持两种软件分发格式:package和parcel。 package是包含了编译的代码和元信息的二进制分发格式,...

Apache Hive 3架构概述

了解Apache Hive 3的主要设计功能(例如默认的ACID事务处理)可以帮助您使用Hive来满足企业数据仓库系统不断增长的需求。 Apache Tez Apache Tez是Hive on Tez服务的Hive执行引擎,该服务包括...

升级Hive3处理语义和语法变更

由于在CDH或HDP中运行的Hive的早期版本与CDP中的Hive 3之间的语义变化,您需要执行许多与迁移相关的更改。Hive 3中与db.table引用和DROP CASCADE相关的一些语法更改可能需要对应用程序进行更...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部