文档章节

R语言实现分层抽样(Stratified Sampling)以iris数据集为例

C
 Claroja
发布于 2017/05/08 23:21
字数 366
阅读 79
收藏 0

1.观察数据集

head(iris)

R语言实现分层抽样以iris数据集为例
选取数据集中前6个数据,我们可以看出iris数据集一共有5个字段。

dim(iris)

R语言实现分层抽样以iris数据集为例
iris数据集一共有150条数据,5个字段

summary(iris)

R语言实现分层抽样以iris数据集为例
观察各个变量的内容,可以看出前四个变量(Sepal.Length Sepal.Width Petal.Length Petal.Width)都是定量变量,而最后一个(Species)是定性变量,我们将依据最后一个变量作为分层抽样的依据。

library(sampling)

载入分层抽样的包sampling

n=round(3/5*nrow(iris)/3)

计算每一个种类的抽样数目。这里我们按照每种“Species”抽取3/5个样本进行抽样。

sub_train=strata(iris,stratanames=("Species"),size=rep(n,3),method="srswor")
head(sub_train)

stratanames参数是抽样依据的变量,size参数是每个种类抽样的数目,这里我们用上一步计算出来的n作为抽样数目,method是抽样方法,我们选择srswor。

data_train=iris[sub_train$ID_unit,] data_test=iris[-sub_train$ID_unit,]

将抽样结果分别定义为训练集(data_train)和测试集(data_test)。

dim(data_train); dim(data_test)

R语言实现分层抽样以iris数据集为例
观察训练集和测试集的字段和数据数目。符合我们的抽样预期。

head(data_train);head(data_test)

R语言实现分层抽样以iris数据集为例
观察训练集和测试集的前几条数据。

data_train;data_test

查看总的抽样结果,这里数据量太大不再给出。

write.csv(data_train,"C:/Users/cnrozh/Desktop/iris_data_train.csv")
write.csv(data_test,"C:/Users/cnrozh/Desktop/iris_data_test.csv")

保存数据集

© 著作权归作者所有

共有 人打赏支持
C
粉丝 0
博文 128
码字总数 44892
作品 0
南京
Scikit-Learn实战之——交叉验证

本文将从以下几个方面进行介绍: 简单地讲训练集/测试集分割进行模型验证的缺点; K折交叉验证的做法和优点; 交叉验证如何用于选择调节参数、选择模型、选择特征; 对交叉验证进行升级。 1....

u013709270
2017/10/04
0
0
给我两小时!带你发动R语言数据挖掘的高铁,一往直前!

主题: 数据挖掘快速上手之R语言实践 随之DT时代的到来,传统的统计分析方法已经不能解决海量高维数据,如何运用数据挖掘手段对复杂数据进行数据处理、数据可视化、数据建模及模型解读是每一...

李晓文
2017/04/18
0
0
ggplot2主题模板:ggthemr

原文链接:ggplot2主题模板:ggthemr 微信公众号:机器学习养成记 搜索添加微信公众号:chenchenwings ggplot2提供了强大的可视化能力,通过修改theme,可以实现各种精美图表。但是想绘制出好...

小沁_3ca9
04/14
0
0
扎心实战案例:麻(shi)雀(zhan)虽小,五脏俱全

作者简介Introduction 邬书豪,车联网数据挖掘工程师 ,R语言中文社区专栏作者。微信ID:tsaiedu 知乎专栏:https://www.zhihu.com/people/wu-shu-hao-67/activities 往期回顾 首先呢,猜测一...

R语言中文社区
03/07
0
0
决策树(R语言)

原文链接:决策树(R语言) 微信公众号:机器学习养成记 搜索添加微信公众号:chenchenwings 决策树是有监督学习算法中的一种。基于属性做一系列的决策,每次决策要么进入下一级决策,要么生成...

小沁_3ca9
02/11
0
0

没有更多内容

加载失败,请刷新页面

加载更多

打开eclipse出现an error has occurred see the log file

解决方法: 1,打开eclipse安装目录下的eclipse.ini文件; 2,打开的文本文件最后添加一行 --add-modules=ALL-SYSTEM 3,保存重新打开Eclipse。...

任梁荣
昨天
3
0
搞定Northwind示例数据库,无论哪个版本的SQLServer都受用

Northwind数据库 从这里可以找到突破口: http://social.msdn.microsoft.com/Forums/zh-CN/Vsexpressvb/thread/8490a1c6-9018-40c9-aafb-df9f79d29cde 下面是MSDN: http://msdn2.microsoft......

QQZZFT
昨天
1
0
mysql主从同步,安装配置操作

准备 两台mysql服务,我这里准备了如下: 主库:192.168.176.128 从库:192.168.176.131 如何在Linux上安装mysql服务,请看https://blog.csdn.net/qq_18860653/article/details/80250499 操作...

小致dad
昨天
3
0
一个手机装天下,走遍中国都不怕!

导读 “1200元(人民币,下同),微信支付,可以,你扫我。”来自西非马里共和国的展商Albert拿着手机,和一位买走他手鼓的中国游客用简单的汉语交流着。 近日,“第十四届中俄蒙经贸洽谈暨商品...

问题终结者
昨天
2
0
Redis的“死键”问题

大规模的数据库存储系统中,数据的生命周期管理是很有必要的;从业务角度发现过期数据,数据归档和数据碎片整理等。以MySQL为例,1个运行很久的TB级MySQL实例中,极有可能数百GB的数据,对业...

IT--小哥
昨天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部