加载中
大数据生命周期管理框架Apache Falcon简介

Apache Falcon是一个开源的hadoop数据生命周期管理框架, 它提供了数据源 (Feed) 的管理服务,如生命周期管理,备份,存档到云等,通过Web UI可以很容易地配置这些预定义的策略, 能够大大简化had...

tensorflow 之循环神经网络

应用场景: 应用于语音识别 语音翻译 机器翻译 RNN RNN(Recurrent Neural Networks,循环神经网络)不仅会学习当前时刻的信息,也会依赖之前的序列信息。 由于其特殊的网络模型结构解决了信息...

kafka 安装 单机测试

kafka 安装 单机测试,根据官网实践下而已. http://kafka.apache.org/documentation.html#quickstart

2016/06/15 14:33
348
spark mllib 朴素贝叶斯 应用案例

朴素贝叶斯,可应用于垃圾邮件,短信的分类僵尸粉的鉴定等.下面以僵尸粉的鉴定为例

hive 实战总结

hive 体系架构 启动 hive 命令行 进入hive安装目录,输入bin/hive的执行程序,或者输入 hive –service cli hive脚本的执行方式大致有三种 hive可以直接敲hive命令进入interactive模式,直接...

04/10 10:36
28
LightGBM 算法原理

LightGBM 的动机 GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合...

JVM内存模型和GC

内存模型 这张图是我见过的最能描述JVM内存模型的图,JVM包括两个子系统和两个组件。两个子系统为:class loader(类装载)、Execution engine(执行引擎);两个组件为:Runtime data area...

04/08 20:51
1
php socket 基础测试

什么是TCP/IP、UDP? TCP/IP(Transmission Control Protocol/Internet Protocol)即传输控制协议/网间协议,是一个工业标准的协议集,它是为广域网(WANs)设计的。 UDP(User Data Protoco...

linux 常用命令总结

新手非常有用的20个命令 1. ls命令 ls命令是列出目录内容(List Directory Contents)的意思。运行它就是列出文件夹里的内容,可能是文件也可能是文件夹。 “ls -l”命令已详情模式(long listi...

Spark SQL

Hive On Spark和SparkSQL都是一个翻译层 把一个SQL翻译成分布式可执行的Spark程序。而且大家的引擎都是spark。 两种方式使用SparkSQL,Spark SQL is a Spark module for structured data pro...

04/11 14:56
0
大数据调度工具oozie详细介绍

背景 之前项目中的sqoop等离线数据迁移job都是利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选择...

中级 Linux 用户非常有用的 20 个命令

linux 中级 命令

2016/02/18 19:22
205
http之头域

每个头域由一个域名,冒号(:)和域值三部分组成。域名是大小写无关的,域值前可以添加任何数量的空格符,头域可以被扩展为多行,在每行开始处,使用至少一个空格或制表符。 1、请求信息: ...

2015/11/26 13:58
105
元数据治理 Apache Atlas

Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括 数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能...

分布式系统基本原理

三元组 其实,分布式系统说白了,就是很多机器组成的集群,靠彼此之间的网络通信,担当的角色可能不同,共同完成同一个事情的系统。如果按”实体“来划分的话,就是如下这几种: 节点 -- 系统...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部