加载中
MYSQL中binlog_format模式与配置详解

一、binlog复制方式 mysql复制主要有三种方式:基于SQL语句的复制(statement-based replication, SBR),基于行的复制(row-based replication, RBR),混合模式复制(mixed-based replication,...

MySQL基本知识点

一、索引相关 索引基数:基数是数据列所包含的不同值的数量。例如,某个数据列包含值1、3、7、4、7、3,那么它的基数就是4。索引的基数相对于数据表行数较高(也就是说,列中包含很多不同的值...

spark中配置启用LZO压缩

参考列表: centos7中安装LZO与配置,请参考:http://blog.itpub.net/31511218/viewspace-2151945/ Hadoop配置LZO,请参考:http://blog.itpub.net/31511218/viewspace-2151946/ Spark中配置...

Hadoop常用命令大全

1. 单独启动和关闭hadoop服务 启动名称节点 #hadoop-daemon.sh start namenode 启动数据节点 #hadoop-daemons.sh start datanode slave 启动secondarynamenode #hadoop-daemon.sh start sec...

2018/12/25 17:00
12
Hive编译及部署

一、需要安装的软件 # 相关环境: # jdk-7u80 # hadoop-2.6.0-cdh5.7.1 不支持jdk1.8,因此此处也延续jdk1.7 # apache-maven-3.3.9 # mysql5.1 # 伪分布集群已启动 二、安装jdk mkdir /usr/...

Shuffle 调优之 HashShuffleManager 和 SortShuffleManager

spark.shuffle.manager:hash、sort、tungsten-sort(自己实现内存管理)spark.shuffle.sort.bypassMergeThreshold:200 spark 1.2.x版本以后,默认的shuffle manager,是什么呢? SortShuf...

Spark 调优之SparkUI详解

Spark UI Environment 可以通过Spark-UI 的 Environment查看当前的参数设置情况(可以查到默认参数大小,也可以校验设置的参数是否生效了,没有的说明默认不限制) image.png Spark UI SQL 可...

Spark调优-初级

写在前面 先列出所有的调优参数,方便快速查询 1.下列Hive参数对Spark同样起作用。 set hive.exec.dynamic.partition=true; // 是否允许动态生成分区 set hive.exec.dynamic.partition.mode...

漫谈千亿级数据优化实践:数据倾斜

0x00 前言 引用 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做...

Spark性能优化之道

Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势 本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partition...

Spark数据倾斜的完美解决

数据倾斜解决方案 数据倾斜的解决,跟之前讲解的性能调优,有一点异曲同工之妙。 性能调优中最有效最直接最简单的方式就是加资源加并行度,并注意RDD架构(复用同一个RDD,加上cache缓存)。...

流计算框架 Flink 与 Storm 的性能对比

1. 背景 Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm ...

Hive大数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,...

2018/11/14 13:25
3
Hive的三种Join方式

Hive中就是把Map,Reduce的Join拿过来,通过SQL来表示。 参考链接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins Common/Shuffle/Reduce Join Reduce Join在Hiv...

2018/11/14 13:19
23
Apache Zeppelin安装及使用

Apache Zeppelin官网:http://zeppelin.apache.org/ Apache Zeppelin介绍:A web-based notebook that enables interactive data analytics. You can make beautiful data-driven, interacti...

Azkaban简介和使用

概述 为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了...

2018/11/13 17:35
11
Hive格式 Parquet与ORC性能测试报告

一、环境说明 Hadoop集群:使用测试Hadoop集群,节点: hadoop230 hadoop231 hadoop232 hadoop233 这几台机器配置一样,具体参数可参考如下: CPU数量:2个 CPU线程数:32个 内存:128GB 磁盘...

2018/11/13 17:16
99
Redis的集群:集群的分片

分片(partitioning)就是将你的数据拆分到多个 Redis 实例的过程,这样每个实例将只包含所有键的子集。 分片能做什么 Redis 的分片承担着两个主要目标: 允许使用很多电脑的内存总和来支持更大...

2018/11/12 11:54
7
redis分布式集群搭建方式

Redis分布式集群几点说道 Redis数据量日益增大,使用的公司越来越多,不仅用于做缓存,同时趋向于存储这一块,这样必促使集群的发展,各个公司也在收集适合自己的集群方案,目前行业用的比较...

Redis和Memcache区别

Redis和Memcache区别 1、 Redis和Memcache都是将数据存放在内存中,都是内存数据库。不过memcache还可用于缓存其他东西,例如图片、视频等等。 2、Redis不仅仅支持简单的k/v类型的数据,同时...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部