加载中
Hive之数据倾斜的原因和解决方法

数据倾斜 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得...

大数据总结

1.hadoop集群可以运行的三种模式 本地模式 分布式集群模式 伪分布式集群模式 2.单机模式中的注意点 单机模式中不存在守护进程,所有东西都运行在一个jvm上,使用的是本地文件系统 3.伪分布式...

MySQL:索引工作原理

为什么需要索引(Why is it needed)? 当数据保存在磁盘类存储介质上时,它是作为数据块存放。这些数据块是被当作一个整体来访问的,这样可以保证操作的原子性。硬盘数据块存储结构类似于链表...

MapReduce shuffle过程剖析及调优

MapReduce简介 在Hadoop MapReduce中,框架会确保reduce收到的输入数据是根据key排序过的。数据从Mapper输出到Reducer接收,是一个很复杂的过程,框架处理了所有问题,并提供了很多配置项及扩...

面试题

sql问题 1.学生成绩表结果如下,写一段sql取每科成绩前三名的学生。 CREATE TABLE `score` (   `id` int(10) NOT NULL AUTO_INCREMENT,   `subject_id` int(10) DEFAULT NULL,   `stu...

05/24 17:36
5
flume

Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,...

04/14 11:55
9
kafka实战经验

Kafka 由于高吞吐量、可持久化、分布式、支持流数据处理等特性而被广泛应用。但当前关于Kafka原理及应用的相关资料较少,在我打算编写本文时,还没有见到中文版本的Kafka相关书籍,对于初学者...

Storm运行原理探索

Apache Storm 简介 Apache Storm 的前身是 Twitter Storm 平台,目前已经归于 Apache 基金会管辖。Apache Storm 是一个免费开源的分布式实时计算系统。简化了流数据的可靠处理,像 Hadoop 一...

Storm实时计算:流操作入门编程实践

Storm是一个分布式是实时计算系统,它设计了一种对流和计算的抽象,概念比较简单,实际编程开发起来相对容易。下面,简单介绍编程实践过程中需要理解的Storm中的几个概念: Topology Storm中...

finally解析

问题: 1.什么时候使用finally语句块??? 2.finally语句块在try或者catch语句中return返回之前还是之后执行??? 3.什么情况下finally语句块不执行??? 解答: 1.也就是finally的作用。...

02/08 18:27
0
项目团队管理

项目团队 1.什么是项目团队 为完成项目而分派的有角色和职责的人员,项目团队成员应该尽可能参与到项目的计划和抉择中 2.项目团队成员早期参与的目的 -为计划过程提供专业知识 -增强对项目的...

Nginx配置文件nginx.conf详解

#定义Nginx运行的用户和用户组 user www www; #nginx进程数,建议设置为等于CPU总核心数。 worker_processes 8; #全局错误日志定义类型,[ debug | info | notice | warn | error | crit ] e...

01/09 17:27
6
货币基金

挑选货币基金的两大原则: 安全性和流动性原则-挑选散户比例高的货币基金 流动性即随时变现的能力,机构性的基金申购赎回都比较频繁,对安全性及流动性造成很大影响。 基金挤兑(大型机构频繁...

mapreduce结构及运行机制

结构 一个完整的mapreduce程序在分布式运行时有三类实例进程: MRAppMaster:负责整个程序的过程调度和状态协调。 MapTask:负责map阶段的数据处理流程。 ReduceTask:负责reduce阶段的整个数...

hdfs详解

1. 基本概念 设计思想,分而治之。 将大文件、批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析 在大数据系统中的作用:为各类运算框架(mapreduce、s...

hadoop简介及集群搭建

1. 什么是hadoop hadoop是Apache下的开源软件平台,一个分布式生态圈 提供的功能,主要是利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理,擅长离线数据分析 分布式软件...

RPC简易框架开发

什么是rpc RPC,即 Remote Procedure Call(远程过程调用),采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,客户机调用进程发送一个有进程参数的调用...

protostuff序列化和反序列化

网络编程中经常会遇到序列化和反序列化的问题, 序列化就是将Java Object转成byte[];反序列化就是将byte[]转成Java Object。 下面介绍一个序列化和反序列化的工具类,可以绕过构造函数创建J...

Java NIO

java NIO简介 channels and buffers(通道和缓存区) 传统的io是基于字节和字符流来进行操作的,而nio是基于通道和缓存区进行操作,数据总是从通道读取到缓存区,或者从缓存区写到通道。 Non-...

2017/11/30 17:34
5

没有更多内容

加载失败,请刷新页面

下一页

返回顶部
顶部