文档章节

SPSS Modeler K-Means聚类结果评价

i
 iamchenli
发布于 2017/07/21 15:26
字数 303
阅读 660
收藏 0
点赞 0
评论 0

对于监督式学习,在训练模型的时候,训练数据已经给出了一个确切的结果,训练完模型后,比较容易用准确率,召回率等来评价模型的。但K-Means是聚类属于无监督式学习,如果评价模型的好坏?

用SPSS Modeler做聚类分析,在“K-Means”节点将数据进行聚类分析,也有类似的东西来评价模型:凝聚和分离的轮廓测量

凝聚和分离的轮廓测量:(B−A) / max(A,B),其中 A 是记录与其聚类中心的距离,B 是记录与其非所属最近聚类中心的距离。值为 1 表示所有个案直接位于其聚类中心上。值为 1 表示所有个案位于某些其他聚类的聚类中心上。值为 0 表示在正常情况下个案到其自身聚类中心与到最近其他聚类中心是等距的。

如果两类数据位置分开的比较明显的话,聚类的起来是比较明确的,所以Spss用一个点到各个聚类中心的聚类来做评价

 

© 著作权归作者所有

共有 人打赏支持
i
粉丝 11
博文 37
码字总数 21218
作品 0
广州
程序员
【每周一本书】之《数据可视化与数据挖掘》:基于Tableau和SPSS Modeler图形界面

数据猿导读】 大数据时代正在改变着我们的生活、工作和思维,要让大数据发挥出最大价值,最重要的手段就是进行数据可视化挖掘。利用可视化数据挖掘工具和技术,分析人员能够从全新的角度快速...

ympzuelx3aiap7q ⋅ 01/16 ⋅ 0

数据挖掘产品 IBM SPSS Modeler 新手使用入门

IBM SPSS Modeler 简介 作为 IBM 分析与预测解决方案的重要组成部分,IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改...

勿忘初心321 ⋅ 2016/08/17 ⋅ 0

06 K均值(K-Means)

引子: 聚类算法的简介 聚类算法是一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。聚类算法与分类算法最大的区别是:聚类算法是无监督的学习算法,而分类算法属于监督的...

weixin_40834089 ⋅ 04/13 ⋅ 0

MADlib——基于SQL的数据挖掘解决方案(26)——聚类之k-means方法

“物以类聚,人以群分”,其核心思想就是聚类。所谓聚类,就是将相似的事物聚集在一起,而将不相似的事物划分到不同的类别的过程,是数据分析中十分重要的一种手段。比如古典生物学中,人们通...

wzy0623 ⋅ 03/13 ⋅ 0

k-means算法原理以及数学知识

摘要 在大数据算法中,聚类算法一般都是作为其他算法分析的基础,对数据进行聚类可以从整体上分析数据的一些特性。聚类有很多的算法,k-means是最简单最实用的一种算法。在这里对k-means算法...

hffzkl ⋅ 2016/10/21 ⋅ 0

K-Means聚类的一些小问题

K-Means的细节问题##### K值怎么定?我怎么知道应该几类? 答:这个真的没有确定的做法,分几类主要取决于个人的经验与感觉,通常的做法是多尝试几个K值,看分成几类的结果更好解释,更符合分...

超神的小橘子 ⋅ 02/26 ⋅ 0

IBM SPSS Modeler数据库内建模

IBM SPSS Modeler Server支持对数据库供应商的数据挖掘工具和建模工具进行整合,其中包括IBM Netezza、IBM DB2 InfoSphere Warehouse、Oracle Data Miner和Microsoft Analysis Services。实现...

勿忘初心321 ⋅ 2016/09/29 ⋅ 0

GMM与K-means聚类效果实战

目录 一、数据探索和预处理 二、无监督学习-降维和聚类分析 三、聚类效果对比分析 四、小结和建议 备注 分析软件:python 数据已经分享在百度云:客户年消费数据 密码:lehv 该份数据中包含客...

weston_Xiang ⋅ 05/07 ⋅ 0

SparkML机器学习之聚类(K-Means、GMM、LDA)

聚类的概念 聚类就是对大量未知标注(无监督)的数据集,按照数据之间的相似度,将N个对象的数据集划分为K个划分(K个簇),使类别内的数据相似度较大,而类别间的数据相似较小。比如用户画像...

liuyanling41 ⋅ 04/04 ⋅ 0

基于改进的K-means算法在共享交通行业客户细分中的应用

对应实现代码:传送门(实现代码专注于方案的实现,k-means算法的改进并没有在代码云中体现,为方便实现直接采用sklearn标准库算法) 摘要:信息时代的来临使得企业营销焦点从产品中心转变为...

u010665216 ⋅ 05/30 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

熊掌号收录比例对于网站原创数据排名的影响[图]

从去年下半年开始,我在写博客了,因为我觉得业余写写博客也还是很不错的,但是从2017年下半年开始,百度已经推出了原创保护功能和熊掌号平台,为此,我也提交了不少以前的老数据,而这些历史...

原创小博客 ⋅ 52分钟前 ⋅ 0

LVM讲解、磁盘故障小案例

LVM LVM就是动态卷管理,可以将多个硬盘和硬盘分区做成一个逻辑卷,并把这个逻辑卷作为一个整体来统一管理,动态对分区进行扩缩空间大小,安全快捷方便管理。 1.新建分区,更改类型为8e 即L...

蛋黄Yolks ⋅ 今天 ⋅ 0

Hadoop Yarn调度器的选择和使用

一、引言 Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。 上图是Yarn的基本架构,其中ResourceManager是整个架构的核心组件,它负...

p柯西 ⋅ 今天 ⋅ 0

uWSGI + Django @ Ubuntu

创建 Django App Project 创建后, 可以看到路径下有一个wsgi.py的问题 uWSGI运行 直接命令行运行 利用如下命令, 可直接访问 uwsgi --http :8080 --wsgi-file dj/wsgi.py 配置文件 & 运行 [u...

袁祾 ⋅ 今天 ⋅ 0

JVM堆的理解

在JVM中,我们经常提到的就是堆了,堆确实很重要,其实,除了堆之外,还有几个重要的模块,看下图: 大 多数情况下,我们并不需要关心JVM的底层,但是如果了解它的话,对于我们系统调优是非常...

不羁之后 ⋅ 昨天 ⋅ 0

推荐:并发情况下:Java HashMap 形成死循环的原因

在淘宝内网里看到同事发了贴说了一个CPU被100%的线上故障,并且这个事发生了很多次,原因是在Java语言在并发情况下使用HashMap造成Race Condition,从而导致死循环。这个事情我4、5年前也经历...

码代码的小司机 ⋅ 昨天 ⋅ 1

聊聊spring cloud gateway的RetryGatewayFilter

序 本文主要研究一下spring cloud gateway的RetryGatewayFilter GatewayAutoConfiguration spring-cloud-gateway-core-2.0.0.RC2-sources.jar!/org/springframework/cloud/gateway/config/G......

go4it ⋅ 昨天 ⋅ 0

创建新用户和授予MySQL中的权限教程

导读 MySQL是一个开源数据库管理软件,可帮助用户存储,组织和以后检索数据。 它有多种选项来授予特定用户在表和数据库中的细微的权限 - 本教程将简要介绍一些选项。 如何创建新用户 在MySQL...

问题终结者 ⋅ 昨天 ⋅ 0

android -------- 颜色的半透明效果配置

最近有朋友问我 Android 背景颜色的半透明效果配置,我网上看资料,总结了一下, 开发中也是常常遇到的,所以来写篇博客 常用的颜色值格式有: RGB ARGB RRGGBB AARRGGBB 这4种 透明度 透明度...

切切歆语 ⋅ 昨天 ⋅ 0

CentOS开机启动subversion

建立自启动脚本: vim /etc/init.d/subversion 输入如下内容: #!/bin/bash## subversion startup script for the server## chkconfig: 2345 90 10# description: start the subve......

随风而飘 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部