加载中
第三章 Notepad++的java编译环境的配置

第三章 Notepad++的java编译环境的配置 为何使用Notepad++作为java编译器 Notepad++的安装 Notepad++配置java环境变量 编辑和运行一个java程序 为何使用Notepad++作为java编译器 也许很多人会...

2018/08/18 15:52
15
Map集合

目录 Map集合 Map接口中常用的方法 Map方法的使用 Map自定义类型对象的添加 Map结合List的代码优化 总结 Map集合 Map集合没有继承Collection接口,它提供了key-values的映射机制。一个key只能...

2018/08/04 14:00
12
[Err] 1418 - 创建函数出错

错误描述   今天启用了MySQL二进制日志,然后再使用MySQL创建函数,运行语句进行创建时总是报如下错误:    [Err] 1418 - This function has none of DETERMINISTIC, NO SQL, or READS S...

01/08 21:20
12
Azkaban运行MapReduce报错:is running beyond virtual memory limits

错误描述   今天使用Azkaban运行Hadoop自带的单词计数jar报如下错误: [pid=19143,containerID=container_1515150928558_0003_01_000002] is running beyond virtual memory limits. Curr...

Java Spark代码报错:java.lang.NoSuchMethodError:net.jpountz.lz4.LZ4BlockInputStream

问题描述   今天在做项目过程中,在使用java语言创建DataFrame在窗口打印数据,编译时总是报错,通过查阅资料最终问题得到解决。记录如下:开发环境为spark2.3 + kafka0.9.0。编辑软件使用...

2018/12/24 20:06
364
HBase的架构、数据模型及读写流程

Hbase简介   HBase是一个分布式的、面向列的开源数据库存储系统 ,是对Google论文Bigtable的实现,具有高可靠性、高性能和可伸缩性,它可以处理分布在数千台通用服务器上的PB级的海量数据 ...

2018/12/23 00:31
68
Hive的架构及元数据三种存储模式

文章目录 什么是Hive? Hive的特点 Hive的架构 元数据存储模式 什么是Hive?   Hive最初是由FaceBook公司开发的一个基于Hadoop框架并且开源的一个数据仓库工具,后贡献给了Apache基金会由A...

2018/12/22 14:13
85
Spark Lineage(血统)

文章目录 Lineage简介 依赖的类型 什么是宽依赖 什么是窄依赖 容错原理 Lineage简介   利用内存加快数据加载,在其它的In-Memory类数据库或Cache类系统中也有实现。Spark的主要区别在于它采...

2018/12/20 22:14
66
IntelliJ IDEA 常用快捷键

文章目录 常用快捷键 其他 【窗口】 【调试部分、编译】 【重构】 【查找】 常用快捷键   Ctrl+/ 或 Ctrl+Shift+/ 注释(// 或者/…/ )   Ctrl+I 实现方法   Ctrl+D 复制行   Ctrl+...

2018/12/14 21:05
31
Spark Streaming状态管理函数(三)——MapWithState的使用(scala版)

文章目录 关于mapWithState   需要自己写一个匿名函数func来实现自己想要的功能。如果有初始化的值得需要,可以使用initialState(RDD)来初始化key的值。 另外,还可以指定timeout函数,该函...

2018/12/11 00:34
384
Spark Streaming状态管理函数(二)——updateStateByKey的使用(scala版)

关于updateStateByKey 1.重点:首先会以DStream中的数据进行按key做reduce操作,然后再对各个批次的数据进行累加 。 2.updateStateBykey要求必须要设置checkpoint点。 3.updateStateByKey 方...

2018/12/10 09:01
31
Spark Streaming状态管理函数(一)——updateStateByKey和mapWithState

updateStateByKey和mapWithState   什么是状态管理函数   updateStateByKey   mapWithState   updateStateByKey和mapWithState的区别   适用场景 什么是状态管理函数   Spark S...

2018/12/09 14:45
334
数据仓库的分层及架构

数据仓库的定义 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”...

Hive优化(二)—具体优化操作

引语 上一篇介绍了关于Hive优化的一些基本概念,这一篇主要讲hive性能优化的一些具体事项,这篇主要将对数据倾斜问题的优化,以及其他的方面的一些优化。 数据倾斜 什么是数据倾斜 在Hadoop当...

2018/12/07 23:56
19
Hive的优化(一)—概念介绍

介绍 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行 。Hive本身是不能存储数据的,...

2018/12/07 00:00
6
Kafka Offset管理及语义概念的理解

引语   消费者需要自己保留一个offset,从kafka 获取消息时,只拉去当前offset 以后的消息。 kafka offset的管理方式分为两种保存offset和不保存offset,一般保存offset采用的是外部存储保...

Spark SQL基本操作以及函数的使用

引语: 本篇博客主要介绍了Spark SQL中的filter过滤数据、去重、集合等基本操作,以及一些常用日期函数,随机函数,字符串操作等函数的使用,并列编写了示例代码,同时还给出了代码当中用到的...

kafka模拟生产-消费者以及自定义分区

基本概念 kafka中的重要角色   broker:一台kafka服务器就是一个broker,一个集群可有多个broker,一个broker可以容纳多个topic   topic:可以理解为一个消息队列的名字   partition:...

2018/11/29 00:07
16
Linux硬盘分区挂载与光盘的挂载(三)—parted分区与光盘的挂载

引语 本篇紧接上篇操作,主要讲使用parted分区工具进行分区和挂载以及光盘的挂载。前面我们已经进行了硬盘的添加、分区、格式化和挂载,这一篇将介绍使用parted来对硬盘进行分区。在第一篇的...

2018/09/02 13:59
62
Linux硬盘的分区挂载与光盘的挂载(二)—fdisk分区的操作步骤

Linux下硬盘的分区与挂载的详细操作步骤: 在第一篇中我们介绍了分区与挂载的一些基本概念、分区工具区别、挂载和分区相关的一些命令格式和使用,这一篇我们将介绍使用Linux系统自带的分区工...

2018/09/01 20:58
20

没有更多内容

加载失败,请刷新页面

返回顶部
顶部