文档章节

最流行的4个机器学习数据集

Airship
 Airship
发布于 2016/07/16 23:20
字数 877
阅读 38
收藏 6

机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。

Iris

Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

数据集特征: 多变量 记录数: 150 领域: 生活
属性特征: 实数 属性数目: 4 捐赠日期 1988-07-01
相关应用: 分类 缺失值? 网站点击数: 563347

Adult

该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。

数据集特征: 多变量 记录数: 48842 领域: 社会
属性特征: 类别型,整数 属性数目: 14 捐赠日期 1996-05-01
相关应用: 分类 缺失值? 网站点击数: 393977

Wine

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

数据集特征: 多变量 记录数: 178 领域: 物理
属性特征: 整数,实数 属性数目: 13 捐赠日期 1991-07-01
相关应用: 分类 缺失值? 网站点击数: 337319

Car Evaluation

这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。

数据集特征: 多变量 记录数: 1728 领域: N/A
属性特征: 类别型 属性数目: 6 捐赠日期 1997-06-01
相关应用: 分类 缺失值? 网站点击数: 272901

小结

通过比较以上4个数据集的差异,简单地总结:当需要试验较大量的数据时,我们可以想到「Adult」;当想研究变量之间的相关性时,我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时,我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时,我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。

以上数据集下载地址http://archive.ics.uci.edu/ml/


 

文/紫松(简书作者)
原文链接:http://www.jianshu.com/p/be23b3870d2e
著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。

本文转载自:http://www.jianshu.com/p/be23b3870d2e

共有 人打赏支持
Airship
粉丝 36
博文 864
码字总数 18996
作品 0
南京
高级程序员
用机器学习构建模型,进行信用卡反欺诈预测

本文通过利用信用卡的历史交易数据进行机器学习,构建信用卡反欺诈预测模型,提前发现客户信用卡被盗刷的事件。 1. 数据的下载和数据介绍 数据的下载地址为 https://www.kaggle.com/dalpozz...

openfea
2017/11/07
0
0
入门 | 10个例子带你了解机器学习中的线性代数

  选自machinelearningmastery   作者:Jason Brownlee   机器之心编译   参与:张倩、刘晓坤      本文介绍了 10 个常见机器学习案例,这些案例需要用线性代数才能得到最好的理...

机器之心
04/30
0
0
开源的机器学习框架应当如何选择?

为何要选择机器学习框架呢?使用开源工具的好处不仅仅在于其可用性。通常来说,如此级别的项目均有大量的数据工程师和数据科学家愿意去分享数据集和前期训练模型。比如,你可以使用分类模型训...

小欣妹妹
04/20
0
0
Kaggle刚刚上线了机器学习课程,我们帮你做了个测评

大数据文摘作品 作者:龙牧雪 2017年3月,数据科学和机器学习竞赛领域的老大Kaggle被谷歌收购,点击查看大数据文摘报道《谷歌宣布收购全球最大数据科学社区Kaggle》,当时双方均未透露收购细...

dzjx2eotaa24adr
01/25
0
0
谷歌BigQuery ML正式上岗,只会用SQL也能玩转机器学习!

AI 前线导读: 前不久,我们在文章《SQL 足以解决你的问题,别动不动就机器学习》 中跟大家探讨过 SQL 和机器学习的问题,想必很多人还有印象。ML/AI 当然有它们的用武之地,但在很多情况下,...

AI前线
07/26
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

centos7安装redis及开机启动

配置编译环境: sudo yum install gcc-c++ 下载源码: wget http://download.redis.io/releases/redis-3.2.8.tar.gz 解压源码: tar -zxvf redis-3.2.8.tar.gz 进入到解压目录: cd redis-3......

hotsmile
43分钟前
0
0
Confluence 6 数据库和临时目录

数据库 所有的其他数据库,包括有页面,内容都存储在数据库中。如果你安装的 Confluence 是用于评估或者你选择使用的是 Embedded H2 Database 数据库。数据库有关的文件将会存储在 database...

honeymose
57分钟前
1
0
day62-20180820-流利阅读笔记

1.今日导读 2.带着问题听讲解 3.新闻正文(中英文对照) 4.重点词汇 5.拓展内容

aibinxiao
今天
0
0
分布式锁实现及对比

一、问题介绍 日常工作中很多场景下需要用到分布式锁,例如:任务运行(多个节点同一时刻同一个任务只能在一个节点上运行(分片任务除外)),交易接受(前端交易请求发送时,可能由于两次提...

yangjianzhou
今天
7
0
【AI实战】快速掌握TensorFlow(二):计算图、会话

在前面的文章中,我们已经完成了AI基础环境的搭建(见文章:Ubuntu + Anaconda + TensorFlow + GPU + PyCharm搭建AI基础环境),以及初步了解了TensorFlow的特点和基本操作(见文章:快速掌握...

雪饼
今天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部