文档章节

spark mlilib 聚类 KMeans

ericSM
 ericSM
发布于 2016/07/29 17:58
字数 439
阅读 71
收藏 0

聚类使用场景 

数据聚类是对于静态数据分析的一门技术,在许多领域内都被广泛地应用,包括机器学习数据挖掘模式识别图像分析、信息检索以及生物信息

运行代码如下

package spark.clustering

import org.apache.spark.mllib.clustering.KMeans
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.{SparkContext, SparkConf}

/**
  * 一般来说,分类是指有监督的学习,即要分类的样本是有标记的,类别是已知的;
  * 聚类是指无监督的学习,样本没有标记,根据某种相似度度量,将样本聚为 K类.
  *
  * 聚类KMEANS
  * 基本思想和核心内容就是在算法开始时随机给定若干(k)个中心,按照距离原则将样本点分配到各个中心点,
  * 之后按照平均法计算聚类集的中心点位置,从而重新确定新的中心点位置.这样不断地迭代下去直至聚类集内的样本满足一定的阈值为止.
  *
  * Created by eric on 16-7-21.
  */
object Kmeans {
  val conf = new SparkConf()                                     //创建环境变量
    .setMaster("local")                                             //设置本地化处理
    .setAppName("KMeans")                              //设定名称
  val sc = new SparkContext(conf)

  def main(args: Array[String]) {
    val data = sc.textFile("./src/main/spark/clustering/kmeans.txt")
    val parsedData = data.map(s => Vectors.dense(s.split(' ').map(_.toDouble)))
      .cache()
    val numClusters = 2 //最大分类数
    val numIterations = 20 //迭代次数
    val model = KMeans.train(parsedData, numClusters, numIterations)

    model.clusterCenters.foreach(println)//分类中心点
    //[1.4000000000000001,2.0]
    //[3.6666666666666665,3.6666666666666665]
  }
}

kmeans.txt

1 2
1 1
1 3
2 2
3 4
4 3
2 2
4 4

结果如下

© 著作权归作者所有

ericSM
粉丝 18
博文 142
码字总数 154379
作品 0
南京
项目经理
私信 提问
加载中

评论(0)

spark-mlib 中Kmeans的输入问题

@oldpig 你好,想跟你请教个问题:你好,最近在研究spark 的 mlib . 想把之前mahout的kmeans 转换为 spark的kmeans , 知道spark有kmeans 算法, 官方也有例子, 目前问题是: 数据源的问题。...

ytwd123
2015/06/25
953
1
【Spark ML】 K-means聚类算法

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Xiejingfa/article/details/79936737 原创作品,转载请标明:https://blog.csdn.net/Xiejingfa/article/detai...

Fred^_^
2018/04/14
0
0
Spark应用HanLP对中文语料进行文本挖掘--聚类详解教程

软件:IDEA2014、Maven、HanLP、JDK; 用到的知识:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition; 用到的数据集:http://www.threedweb.cn/thread-1288-1-1.html(不需要下载,已...

左手的倒影
2018/11/12
63
0
【Spark ML源码剖析】 K-means聚类算法

原创作品,转载请标明:https://blog.csdn.net/Xiejingfa/article/details/79936737 最近在学习Spark ML的相关知识,打算写一个专栏介绍一些常用算法在Spark中的实现,今天给大家带来第一篇:...

xiejingfa
2018/04/14
0
0
Spark的39个机器学习库-中文

//Apache Spark 本身// 1.MLlib >AMPLab Spark最初诞生于伯克利 AMPLab实验室,如今依然还是AMPLab所致力的项目,尽管这些不处于Apache Spark Foundation中,但是依然在你日常的github项目中...

MoksMo
2015/11/04
965
0

没有更多内容

加载失败,请刷新页面

加载更多

Kali Linux发布2020.1a版本

Kali Linux发布2020.1a版本 Kali Linux发布2020.1a版本。现在该版本暂时只能从cdimage.kali.org下载。该版本修复了2010.1不联网安装时,没有桌面的bug。2010.1默认的桌面为Xfce。该桌面对应的...

大学霸
20分钟前
46
0
Elasticsearch+Fluentd+Kafka搭建日志系统

前言 由于logstash内存占用较大,灵活性相对没那么好,ELK正在被EFK逐步替代.其中本文所讲的EFK是Elasticsearch+Fluentd+Kfka,实际上K应该是Kibana用于日志的展示,这一块不做演示,本文只讲述数...

四颗咖啡豆
45分钟前
57
0
结果.

app/admin/options.py

MtrS
今天
42
0
00-Java 面试准备

面试之前 面试前准备简历需要注意的几个方面: 写简历、改简历,这个一定要干的。简历有两个作用,一个是吸引别人,能让别人邀请你去面试,这是前提;另一个是引导面试的人,让面试的人问你所...

源程序
今天
54
0
OSChina 周二乱弹 —— 大王(@罗马的王)颜值制霸Osc社区

Osc乱弹歌单(2020)请戳(这里) 【今日歌曲】 @巴拉迪维 :Lunik的单曲《Seeing You Soar》 I hope you’re smiling,When seeing me soar. #今日歌曲推荐# 《Seeing You Soar》- Lunik 手...

小小编辑
今天
1.6K
5

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部