文档章节

多元统计分析R语言建模| 7 聚类分析

ddd口木呆
 ddd口木呆
发布于 03/27 11:29
字数 638
阅读 32
收藏 0
  • 基本概念(Cluster Analysis)
    • “物以类聚”
  • 分析方法
    • 系统聚类
    • 快速聚类
  • 类型
    • Q型聚类:对样品的聚类
    • R型聚类:对变量的聚类
  • 聚类统计量
    • 距离
      • 欧氏距离
      • 马氏距离
      • 兰式距离
    • 相关系数
    • 距离矩阵
    • 相关矩阵
    • 距离矩阵计算——dist(),cor()
  • 系统聚类法
    • 基本思想:先将样品分成类,每个样品为一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,直到所有样品归为一类为止
    • 类间距离的计算方法
      • 最短距离法(single)
      • 最长距离法(complete)
      • 中间距离法(median)
      • 类平均法(avera)
      • 重心法(centroid)
      • 离差平方和法(Ward)
      • 通用公式
  • hclust(D,method=)

  • 快速聚类法kmeans
    • 概念:基本思想是将每一个样品分配给最近中心(均值)的类中
    • 原理:n个对象分k类,类内相似度高,类间相似度低
      • 相似度:类中对象的均值mean来计算
    •  kmeans(x,centers)
    • 不足:只有在类均值被定义的情况下才能使用,对孤立点、噪声影响敏感
    • knn,kmed,中位数
  • 变量变换
    • 平移变换
    • 极差变换
    • 标准差变换
    • 主成分
    • 对数
x1=c(2.5,3.0,6.0,6.6,7.2,4.0,4.7,4.5,5.5)
x2=c(2.1,2.5,2.5,1.5,3.0,6.4,5.6,7.6,6.9)
X=data.frame(x1,x2)
D=dist(X,diag = TRUE,upper = FALSE)

hc=hclust(D,"complete")
hc
names(hc)
hc$merge
hc$height
#系统聚类图
plot(hc)
rect.hclust(hc,3)
#显示分类步骤
cutree(hc,9:1)
#系统聚类分析步骤
library(mvstats)
d7.2=read.table('clipboard',header = T)
X7.2=msa.X(d7.2)
plot(d7.2,gap=0)
D=dist(d7.2)
D
H=H.clust(d7.2,"euclidean","single",plot=T)#最短距离法
H.clust(d7.2,"euclidean","complete",plot=T)#最长距离法
H.clust(d7.2,"euclidean","median",plot=T)#中间距离法 
H.clust(d7.2,"euclidean","average",plot=T)#类平均法        
H.clust(d7.2,"euclidean","centroid",plot=T)#重心法        
H.clust(d7.2,"euclidean","ward",plot=T)#ward
cutree(H,3)

#快速聚类法
set.seed(123)
x1=matrix(rnorm(1000,0,0.3))
x2=matrix(rnorm(1000,1,0.3))
X=rbind(x1,x2)
H=hclust(dist(X))
plot(H)
km=kmeans(X,2)
km$cluster
plot(X,pch=km$cluster)

#10变量2000样品
set.seed(123)
x1=matrix(rnorm(10000,0,0.3),ncol = 10)
x2=matrix(rnorm(10000,1,0.3),ncol = 10)
Y=rbind(x1,x2)
km=kmeans(Y,2)
km$cluster
plot(Y,pch=km$cluster)
km

© 著作权归作者所有

ddd口木呆
粉丝 0
博文 62
码字总数 73082
作品 0
海淀
私信 提问
加载中

评论(0)

给我两小时!带你发动R语言数据挖掘的高铁,一往直前!

主题: 数据挖掘快速上手之R语言实践 随之DT时代的到来,传统的统计分析方法已经不能解决海量高维数据,如何运用数据挖掘手段对复杂数据进行数据处理、数据可视化、数据建模及模型解读是每一...

李晓文
2017/04/18
0
0
R语言与Tableau集成之可视化应用 - 知乎

作者 | CDA数据分析师 Tableau是一款非常棒的数据可视化商业软件,通过拖拉拽的方式迅速的实现数据可视化。而且该软件可以连接任何一种数据库,在处理大型数据时一点都不逊色。缺点是其无法从...

大数据分析·人工智能
2019/12/29
0
0
R语言中的对象以及它的模式与属性

点击下列超链接可进入博客: 一、语法篇: R语言常用包分类 R语言数据导入导出总结 R语言数据探索功能总结 R语言中的离群点检测方法 R语言中的向量使用合集 R语言中的因子类型 R语言中的对象...

Gavin姓陈
03/31
0
0
【2017.8.19-20●上海】理论+实战:玩转R语言

随着生物信息、临床诊断等各个领域的信息化发展,大数据的分析与管理已经成为这个时代必然面对的机遇和挑战。数理统计学作为研究“数据智能”的科学,在数据科学领域扮演者越来越重要的角色。...

慧算学院
2017/06/06
36
0
数据可视化,带给你的惊艳并不止这一点!

在大数据时代的现今,数据庞大且繁杂,仅通过简单的数据整理得出清晰的结论,已经不太合理。实际上,若要简明扼要地展示出结论,不妨考虑一下数据可视化。 那么,什么是数据可视化呢? 数据可...

技术小能手
2018/08/22
0
0

没有更多内容

加载失败,请刷新页面

加载更多

郑州哪哪里可以开工程款发票-郑州_新闻网

【电薇同步;1.3.8 - 2.7.4.1 - 5.2.9.7.】张生、诚、信、合、作,保、真、售、后、保、障、长、期、有、效。adb的全称为Android Debug Bridge,是Android手机通用...

yyqqvip
13分钟前
15
0
Nginx 反向代理访问

在Nginx 配置 server { listen 80; server_name www.xiaocx.org www.xiaocx.org www.xiaocx.org; root /Users/maison/work/xiaocx/dist; index i......

韩庚庚
17分钟前
17
0
python笔记:环境变量已设置CMD中一直报错"python"不是内部命令,也不是可运行的程序或批处理文件

这些天虽然也写了几个小工具,但是打包都是在anaconda prompt中完成的,因为CMD中一直报错"python"不是内部命令,也不是可运行的程序或批处理文件,各种查度,千篇一律的是环境变量配置的问题...

小玲_001
18分钟前
7
0
AI+BI服务模式

术语与缩写解释 缩写、术语 解 释 BI 商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析...

zoegu228
19分钟前
16
0
leetcode1227(面试题 17.09. 第 k 个数)--C语言实现

求: 有些数的素因子只有 3,5,7,请设计一个算法找出第 k 个数。注意,不是必须有这些素因子,而是必须不包含其他的素因子。例如,前几个数按顺序应该是 1,3,5,7,9,15,21。 示例 1:...

拓拔北海
46分钟前
27
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部