加载中
SparkSQL JDBC连接 mysql

SparkSQL JDBC连接 mysql

2016/07/01 12:21
283
mysql导入导出带事物函数

phpmyadmin的导入导出,会有大小限制和事务与函数不能导出的情况,所以利用命令行处理

swoole 安装测试

swoole 是 PHP的异步、并行、高性能网络通信引擎

2016/08/25 16:25
436
LightGBM 算法原理

LightGBM 的动机 GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合...

2019/04/23 14:21
781
hive 实战总结

hive 体系架构 启动 hive 命令行 进入hive安装目录,输入bin/hive的执行程序,或者输入 hive –service cli hive脚本的执行方式大致有三种 hive可以直接敲hive命令进入interactive模式,直接...

2019/04/10 10:36
965
Spark SQL

Hive On Spark和SparkSQL都是一个翻译层 把一个SQL翻译成分布式可执行的Spark程序。而且大家的引擎都是spark。 两种方式使用SparkSQL,Spark SQL is a Spark module for structured data pro...

2019/04/11 14:56
53
Spark 小内容

Spark 的一些内容 1.函数作用以及返回值类型 foreach flatMap 返回的迭代器的所有内容构成新的RDD 是一个序列化的数据而不是单个数据项-- a Seq map map:对集合中每个元素进行操作。 flatMa...

2019/04/11 15:26
10
深度学习——激活函数Sigmoid/Tanh/ReLU

激活函数(Activation Function)的特点: 非线性: 当激活函数是线性的时候,一个两层的神经网络就可以逼近基本上所有的函数了。 可微: 当优化方法是基于梯度的时候,这个性质是必须的。 单调...

2019/04/11 20:58
151
XGBoost原理——机器学习大杀器

XGBoost是什么 Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型,所以它是将许多树模型集成在一起,形成一个很强的分类器。 在决策树中,我们知...

2019/04/23 10:36
158
数据分层

1.数据计算层 01.数据计算层-主要考虑方面 计算平台:离线数据计算 实时数据计算 管理:元数据模型整合和应用、 数据表的规范命名 存储元数据: 运行数据: 2.计算的数据分层:数据加工链路 ...

2019/04/11 16:11
58
分布式系统基本原理

三元组 其实,分布式系统说白了,就是很多机器组成的集群,靠彼此之间的网络通信,担当的角色可能不同,共同完成同一个事情的系统。如果按”实体“来划分的话,就是如下这几种: 节点 -- 系统...

Hive和HBase有哪些区别与联系及适用场景

hive Hive是运行在Hadoop上的一个工具,准确地讲是一个搜索工具。当对海量数据进行搜索时,Hadoop的计算引擎是MapReduce。但是对MapReduce的操作和编程是非常复杂的。于是Hive的存在就让复杂...

JAVA内存泄漏和内存溢出的区别和联系

JAVA内存泄漏和内存溢出的区别和联系 1、内存泄漏memory leak : 是指程序在申请内存后,无法释放已申请的内存空间,一次内存泄漏似乎不会有大的影响,但内存泄漏堆积后的后果就是内存溢出。 ...

2019/04/09 20:56
2.4K
Spark 内存管理

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。 理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳...

2019/03/19 17:48
40
算法回顾

第一章:算法简介 二分查找: log10100相当于问“将多少个10相乘 的结果为100,答案是两个:10 × 10 = 100。因此,log10100 = 2。 算法效率: 总结: 二分查找的速度比简单查找快得多。 O(...

Spark 数据倾斜

什么是数据倾斜 比方WordCount中某个Key对应的数据量非常大的话,就会产生数据倾斜,导致两个后果: OM(单或少数的节点); 拖慢整个Job执行时间(其他已经完成的节点都在等这个还在做的节点...

2019/03/21 09:57
462
大数据调度工具oozie详细介绍

背景 之前项目中的sqoop等离线数据迁移job都是利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选择...

FAQ

运行环境 EMR版本: EMR-3.14.0 集群类型: HADOOP 软件信息: HDFS2.7.2 / YARN2.7.2 / Hive2.3.3 / Ganglia3.7.2 / Zookeeper3.4.13 / Spark2.3.1 / HBase1.1.1 / HUE4.1.0 / Zeppelin0.8.0 /...

tensorflow 之循环神经网络

应用场景: 应用于语音识别 语音翻译 机器翻译 RNN RNN(Recurrent Neural Networks,循环神经网络)不仅会学习当前时刻的信息,也会依赖之前的序列信息。 由于其特殊的网络模型结构解决了信息...

2019/04/13 11:42
1.8K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部