加载中
大数据OLAP系统(3) OLTP和OLAP的区别

OLTP和OLAP的区别 OLTP(on-line transaction processing)翻译为联机事务处理, 或者在线交易处理系统 OLAP(On-Line Analytical Processing)翻译为联机分析处理,或者在线分析系统 从字面...

大数据OLAP系统(2)

开源大数据OLAP组件,可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎: MOLAP一般对数据...

大数据OLAP系统 (1)

数据生产面临的挑战 数据爆炸,每日使用最新维度对历史数据进行回溯计算。在Kylin的MOLAP模式下存在如下问题: 历史数据每日刷新,失去了增量的意义。 每日回溯历史数据量大,10亿+的历史数据...

Linux下JDK安装

yum安装 安装 JDK1.8 的命令如下: sudo yum install -y java-1.8.0-openjdk*安装 安装目录 ll /usr/lib/jvm/java-1.7.0-openjdk-1.7.0.79.x86_64 加入环境变量 export JAVA_HOME=/usr/lib/jv...

03/02 16:55
42
Kafka+SparkStream+Hive的实战1

目前的项目中需要将kafka队列的数据实时存到hive表中。 import org.apache.kafka.clients.consumer.ConsumerRecord import org.apache.kafka.common.serialization.StringDeserializer impo...

03/01 15:30
54
Hive 常用的SQL3 Hive分组取Top N

Hive分组取Top N Hive在0.11.0版本开始加入了row_number、rank、dense_rank分析函数,可以查询分组排序后的top值 使用规则: row_number() over ([partition col1] [order by col2] ) rank()...

02/26 16:38
21
机器学习方法

学习方式   根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式...

梯度提升决策树GBDT

G-B-D-T梯度提升决策树,顾名思义,是一个与梯度有关、对决策树进行了提升的机器学习模型。我们不妨从后往前依次聊聊GBD这几个定语,从而理解这个模型的精髓。 DT(Decision Tree)决策树。 ...

聚类(Cluster)算法指标

外部评价法 外部评价方法意味着评判聚类算法的结果是基于一种预先指定的结构。这种结构反映了人们对数据集聚类结构的直观认识。每个数据项的分类标记已知。下面介绍两种常用的两种 F-measur...

02/23 17:14
438
回归(Regression)算法指标

常用的回归(Regression)算法指标有平均绝对误差(Mean Absolute Error)、均方误差(Mean Squared Error)和均方根误差(Root Mean Squared Error)三种。 平均绝对误差(Mean Absolute Err...

02/23 13:47
801
Extracting, transforming and selecting features

This section covers algorithms for working with features, roughly divided into these groups 本节介绍使用功能的算法,大致分为以下几组: 提取: 从数据中抽取特征。 转变: Scaling, co...

Spark2.2 机器学习库(MLlib)指南

机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。机器学习具有可扩展性和易用性。提供高级API,它提供了以下工具: ML算法:常见的学习算法,如分类、回归、聚类和协同过滤 特征化...

Spark2.2.0 MLlib

MLlib: Main Guide Basic statistics 基本统计 Pipelines 管道 Extracting, transforming and selecting features 特征提取、转换和选择 Classification and Regression 分类和回归 Clusteri...

How to fix CentOS 6 YumRepo Error: All mirror URLs are not using ftp, http[s] or file.

YumRepo Error [root@cs-1 ~]# yum install vim YumRepo Error: All mirror URLs are not using ftp, http[s] or file. Eg. Invalid release/repo/arch combination/ removing mirrorlist wi...

VMware 安装centos6.5 无法连接外网

cmd ipconfig 编辑虚拟机设置 虚拟网络编辑器 编辑 ifcfg-eth0 [root@cs-1 ~]# cat /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 TYPE=Ethernet ONBOOT=yes NM_CONTROLLED=yes B...

02/07 10:41
21
SparkSession2.x 行转列 列转行

SparkDataFrame 将1列m行 转为1列1行 df.agg(collect_set("列名")) +--------------------- |collect_set(rules) ......

02/05 16:20
29
Spark自定义函数

UDF函数 def myUdf(id: Int) = s"tag$id" sqlContext.udf.register("myUdf", myUdf(_:Int)) df.registerTempTable("tb1") sqlContext.sql("select myUdf(col1) from tb1 ") val myUdf = ...

02/05 13:16
34
Hive 常用的SQL1

SQL的常见的操作 -- 创建和删除数据库 create database if not exists userdb; drop databases if exists userdb; --查看表的详细信息 show create table tablename; --查询一张表,创建一张...

01/28 15:15
40
Spark的小妙招

Spark的隐式转化 出现map这种编译异常 })(?:Encoder[ArrayBuffer[Nothing]] import spark.implicits._ import org.apache.spark.sql.functions._ scala 的 mutable scala 可变数组 scala.co...

01/27 18:09
35
机器学习入门教程

学习资料 Data Prepocessing 数据预处理 基于 Jupyter 的特征工程手册:特征选择

01/18 13:14
29

没有更多内容

加载失败,请刷新页面

返回顶部
顶部