连击 天
fork: star:
树的概念 深度(depth):如图所示,根节点为r,v是一个树中间的节点。v的深度,即为v到r的唯一通路经过的边的个数,记作depth(v)。 祖先(ancestor)、后代(descendant):任一节点v在通往树根沿...
什么是数据倾斜 比方WordCount中某个Key对应的数据量非常大的话,就会产生数据倾斜,导致两个后果: OM(单或少数的节点); 拖慢整个Job执行时间(其他已经完成的节点都在等这个还在做的节点...
Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括 数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能...
主成分分析PCA:设法将原来具有一定相关行(比如 P个指标)的指标 重新组合成一组新的互相无关的综合指标来代替原来的指标,从而实现数据降维的目的
奇异值分解(SVD):一个矩阵分解成带有方向向量的矩阵相乘
推荐系统概述: 通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。 推荐系统在用户(USER)和物品(ITEM)之间建立一座桥梁, 帮助用户找到...
背景 之前项目中的sqoop等离线数据迁移job都是利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选择...
第一章:算法简介 二分查找: log10100相当于问“将多少个10相乘 的结果为100,答案是两个:10 × 10 = 100。因此,log10100 = 2。 算法效率: 总结: 二分查找的速度比简单查找快得多。 O(...
hive Hive是运行在Hadoop上的一个工具,准确地讲是一个搜索工具。当对海量数据进行搜索时,Hadoop的计算引擎是MapReduce。但是对MapReduce的操作和编程是非常复杂的。于是Hive的存在就让复杂...
Apache Falcon是一个开源的hadoop数据生命周期管理框架, 它提供了数据源 (Feed) 的管理服务,如生命周期管理,备份,存档到云等,通过Web UI可以很容易地配置这些预定义的策略, 能够大大简化had...
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。 理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳...
JAVA内存泄漏和内存溢出的区别和联系 1、内存泄漏memory leak : 是指程序在申请内存后,无法释放已申请的内存空间,一次内存泄漏似乎不会有大的影响,但内存泄漏堆积后的后果就是内存溢出。 ...
Spark 的一些内容 1.函数作用以及返回值类型 foreach flatMap 返回的迭代器的所有内容构成新的RDD 是一个序列化的数据而不是单个数据项-- a Seq map map:对集合中每个元素进行操作。 flatMa...
没有更多内容
加载失败,请刷新页面
文章删除后无法恢复,确定删除此文章吗?
动弹删除后,数据将无法恢复
评论删除后,数据将无法恢复