加载中
数据仓库(一)之需求篇

概述 业务需求定义了企业的业务人员为了完成其工作,进而实现企业目标,一定要具备的东西。包括功能性需求和提供的服务。它是数据仓库的核心,从广度和深度上做好需求调研为数据仓库建设建立...

2019/12/09 20:28
63
用Python做股市数据分析

这篇博文是用Python分析股市数据系列两部中的第一部,内容基于我犹他大学 数学3900 (数据科学)的课程。在这些博文中,我会讨论一些基础知识。比如如何用pandas从雅虎财经获得数据, 可视化股...

2018/07/29 16:01
1K
Hadoop列式存储引擎Parquet/ORC和snappy压缩

  相对于传统的行式存储格式,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐。列式存储缺点:在column数很多,每次操作大部分列的时候,cpu压力突增,而且增加处理时长。优点:在...

2017/06/14 23:14
1.9K
Hive格式各种格式下不同压缩算法的比较

原始Text格式的Hive分区大小为119.2G。 压缩算法 Text格式 Parquet格式 ORC RCFile 不压缩 119.2G 54.1G 20.0G 98G Snappy压缩 30.2 G 23.6 13.6 27.0G Gzip压缩 18.8 G 14.1 G 不支持 15.2...

2017/06/14 22:49
1.3K
Hadoop2.X大数据集群规划与架构设计

第一阶段:先说说伪分布式 不管是HDFS和YARN,在我们之前的文章中已经说过关于伪分布式的部署和安装。也就是我们把HDFS的两个节点NameNode和DataNode,YARN的ResourceManger和NodeManager都放...

2017/06/11 14:54
894
Hive使用ORC格式存储离线表

在大数据时代,列式存储变得越来越流行了,当然并不是说行式存储就没落了,只是针对的场景不同,行式存储的代表就是我们大多数时候经常用的数据库,比较适合数据量小,字段数目少,查询性能高...

2017/06/05 22:54
995
Hive支持的文件格式与压缩算法

概述 只要是配置了正确的文件类型和压缩类型(比如Textfile+Gzip、SequenceFile+Snappy等),Hive都可以按预期读取并解析数据,提供SQL功能。 SequenceFile本身的结构已经设计了内容进行压缩。...

2017/06/05 22:29
7.2K
Hive文件存储格式的测试比较

整理了一下网上的几种Hive文件存储格式的性能与Hadoop的文件存储格式。 Hive的三种文件格式:TEXTFILE、SEQUENCEFILE、RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFIL...

2017/06/05 22:27
66
ZooKeeper学习第二期--ZooKeeper安装配置

一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境; ■ 伪集群模式:就是在一台物理机上运...

2017/05/13 20:41
60
ZooKeeper学习第一期---Zookeeper简单介绍

一、分布式协调技术 在给大家介绍ZooKeeper之前先来给大家介绍一种技术——分布式协调技术。那么什么是分布式协调技术?那么我来告诉大家,其实分布式协调技术 主要用来解决分布式环境当中多...

2017/05/13 20:38
52

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部