加载中
Spark2.2.0 MLlib dataframe join

join方式 1、join 1 personDataFrame.join(orderDataFrame, personDataFrame("id_person") === orderDataFrame("id_person")).show() 2、join 2 df.join(df2, Seq("course","course"),"left_...

2021/06/07 15:20
43
Spark2.2.0 MLlib VectorAssemblerExample

val spark = SparkSession .builder .appName("VectorAssemblerExample") .getOrCreate() // $example on$ val dataset = spark.createDataFrame( Seq((0, 18, 1.0, Vectors.dense(0.0, 10.0...

2021/05/30 13:46
101
Spark2.2.0 MLlib RandomForestClassifier

合并特征 trainData, testData = data.randomSplit([0.8, 0.2]) featuresArray = data.columns[:-1] assembler = VectorAssembler().setInputCols(featuresArray).setOutputCol("features") ...

2021/05/28 19:55
264
Spark2.2.0 MLlib RDD 到 LabelPoint的转换

首先构造数据 import scala.util.Random.{setSeed, nextDouble} setSeed(1) //创建对象 case class Record(foo: Double, target: Double, x1: Double, x2: Double, x3: Double) //生成10条记...

spark2.2 拆分字符串

读取文件 val txt = spark.read.text("D:\\tmp\\log.txt") 拆分字符串 val dfSplit:DataFrame = txt.withColumn("split", split(col("value"), "\t")).select( $"split".getItem(0).as("tra...

2021/05/24 12:20
605
SPARK foreach循环中的变量问题,在循环体中有值,在循环体外无值

原因 在spark算子中引用的外部变量,其实是变量的副本,在算子中对其值进行修改,只是改变副本的值,外部的变量还是没有变。 通俗易懂的讲就是foreach里的变量带不出来的,除非用map,将结果...

2021/03/17 14:49
501
Kafka+SparkStream+Hive的实战1

目前的项目中需要将kafka队列的数据实时存到hive表中。 import org.apache.kafka.clients.consumer.ConsumerRecord import org.apache.kafka.common.serialization.StringDeserializer impo...

2021/03/01 15:30
89
Extracting, transforming and selecting features

This section covers algorithms for working with features, roughly divided into these groups 本节介绍使用功能的算法,大致分为以下几组: 提取: 从数据中抽取特征。 转变: Scaling, co...

2021/02/17 16:36
67
Spark2.2.0 MLlib

Spark MLlib概述 MLlib是Spark的机器学习(Machine Learning)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。 MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协...

SparkSession2.x 行转列 列转行

SparkDataFrame 将1列m行 转为1列1行 df.agg(collect_set("列名")) +--------------------- |collect_set(rules) ......

2021/02/05 16:20
52
Spark自定义函数

UDF函数 def myUdf(id: Int) = s"tag$id" sqlContext.udf.register("myUdf", myUdf(_:Int)) df.registerTempTable("tb1") sqlContext.sql("select myUdf(col1) from tb1 ") val myUdf = ...

2021/02/05 13:16
120
Spark的小妙招

Spark的隐式转化 出现map这种编译异常 })(?:Encoder[ArrayBuffer[Nothing]] import spark.implicits._ import org.apache.spark.sql.functions._ scala 的 mutable scala 可变数组 scala.co...

2021/01/27 18:09
84
机器学习入门教程

学习资料 Data Prepocessing 数据预处理 基于 Jupyter 的特征工程手册:特征选择

2021/01/18 13:14
232

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部