加载中
clickhouse config.xml

1. builtin_dictionaries_reload_interval:重新加载内置词典的时间间隔(以秒为单位),默认3600。可以在不重新启动服务器的情况下“即时”修改词典。 3600...

clickhouse 配置文件

概述 ClickHouse支持多文件配置管理。 主服务器配置文件是/etc/clickhouse-server/config.xml。 其他文件必须位于/etc/clickhouse-server/config.d目录中。 所有配置文件均应为XML格式。 此外...

clickhouse 安装

安装 来自DEB包 建议为Debian或Ubuntu使用官方的预编译deb软件包。 运行以下命令以安装软件包: sudo apt-get install apt-transport-https ca-certificates dirmngr sudo apt-key adv --ke...

02/02 18:58
77
presto、sparksql、druid、kylin、clickhouse说明

presto和sparksql只是计算引擎,不做数据存储 相对于sparksql,presto是纯内存计算,尽量使用整个集群中的内存,sparksql依赖于分配的executor数量,在executor内存不足时会落盘; 相对于spa...

Hive concat concat_ws 拼接空字符串的坑

concat() :如果存在空,返回空: hive> select concat('cd','1'); OK cd1 Time taken: 0.461 seconds, Fetched: 1 row(s) hive> select concat('cd',1); OK cd1 Time taken: 0.066 seconds...

2020/12/06 10:43
352
clickhouse 稀疏索引

MergeTree存储结构逻辑示意图 MergeTree表的存储结构中,每个数据分区相互独立,逻辑上没有关联。单个数据分区内部存在着多个MergeTree Data Part。这些Data Part一旦生成就是Immutable的状态...

2020/09/29 16:31
5.6K
clickhouse总览

简介 Yandex在2016年6月15日开源的一个数据分析的数据库,名字叫做ClickHouse ClickHouse存储层 ClickHouse从OLAP场景需求出发,定制开发了一套全新的高效列式存储引擎,并且实现了数据有序存...

JIT 编译器

JIT 简介 JIT 是 just in time 的缩写, 也就是即时编译编译器。使用即时编译器技术,能够加速 Java 程序的执行速度。下面,就对该编译器技术做个简单的讲解。 首先,我们大家都知道,通常通过...

2020/09/23 21:28
83
hive的数据压缩

1、MR支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 DEFAULT 无 DEFAULT .deflate 否 Gzip gzip DEFAULT .gz 否 bzip2 bzip2 bzip2 .bz2 是 LZO lzop LZO .lzo 否 LZ4 无 LZ4 .l...

Hive中的InputFormat、OutputFormat与SerDe

Hive中,默认使用的是TextInputFormat,一行表示一条记录。在每条记录(一行中),默认使用^A分割各个字段。 在有些时候,我们往往面对多行,结构化的文档,并需要将其导入Hive处理,此时,就需...

2020/09/07 16:09
495
double类型计算精度丢失问题及解决方法

public class Test{ public static void main(String [] args){ System.out.println(0.06+0.01); System.out.println(1.0-0.42); System.out.println(4.015*100); Syst......

2020/09/03 22:03
1.2K
protostuff

protostuff是一个基于protobuf实现的序列化方法,它较于protobuf最明显的好处是,在几乎不损耗性能的情况下做到了不用我们写.proto文件来实现序列化。使用它也非常简单,所以直接上代码。 ma...

2020/06/02 15:23
213
spark checkpoint

Checkpoint 到底是什么和需要用 Checkpoint 解决什么问题: Spark 在生产环境下经常会面临 Transformation 的 RDD 非常多(例如一个Job 中包含1万个RDD) 或者是具体的 Transformation 产生的 ...

2020/06/02 14:55
73
spark streaming checkpoint

一个 Streaming Application 往往需要7*24不间断的跑,所以需要有抵御意外的能力(比如机器或者系统挂掉,JVM crash等)。为了让这成为可能,Spark Streaming需要 checkpoint 足够多信息至一...

updateStateByKey和mapWithState比较

什么是状态管理函数   Spark Streaming中状态管理函数包括updateStateByKey和mapWithState,都是用来统计全局key的状态的变化的。它们以DStream中的数据进行按key做reduce操作,然后对各个...

Spark中的DataFrame,字段为Array类型,getas出错的问题

打开getas的源码,找到下面一段 /** * Returns the value at position i of array type as a Scala Seq. * * @throws ClassCastException when data type does not match. */ def getSeq[T....

2020/06/02 11:02
605
flink BroadcastStream

使用场景: 在处理数据的时候,有些配置是要实时动态改变的,比如说我要过滤一些关键字,这些关键字呢是在MYSQL里随时配置修改的,那我们在高吞吐计算的Function中动态查询配置文件有可能使整...

2020/06/02 10:52
592
hive sql计算连续签到天数

在a表中有id和date两列,记录用户当天是否签到,想查询出哪些用户连续签到了3天(或连续签到更多天,是连续签到),sql改如何写呢? 首先 用row_number来统计排名 select id,date,row_numbe...

2020/06/01 15:10
960
FileSystem.get从缓存cache中获得连接导致的问题

首先了解FileSyste.get机制,查看源码可知,首先会根据fs.hdfs.impl.disable.cache,是否去缓存cache中找连接,默认是去缓存中找连接的,参考:HDFS下载数据之源码分析-FileSystem.get(conf)...

2020/05/27 15:57
187
happen-before原则

1.什么是happen-before (1)编写的程序都要经过优化(编译器和处理器会对程序进行优化)后才会被运行,优化分为很多种,其中有一种优化叫做重排序,重排序需要遵守happens-before规则。 (2...

2020/05/12 15:09
139

没有更多内容

加载失败,请刷新页面

返回顶部
顶部