文档章节

最流行的4个机器学习数据集

Airship
 Airship
发布于 2016/07/16 23:20
字数 877
阅读 38
收藏 6

机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。

Iris

Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

数据集特征: 多变量 记录数: 150 领域: 生活
属性特征: 实数 属性数目: 4 捐赠日期 1988-07-01
相关应用: 分类 缺失值? 网站点击数: 563347

Adult

该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。

数据集特征: 多变量 记录数: 48842 领域: 社会
属性特征: 类别型,整数 属性数目: 14 捐赠日期 1996-05-01
相关应用: 分类 缺失值? 网站点击数: 393977

Wine

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

数据集特征: 多变量 记录数: 178 领域: 物理
属性特征: 整数,实数 属性数目: 13 捐赠日期 1991-07-01
相关应用: 分类 缺失值? 网站点击数: 337319

Car Evaluation

这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。

数据集特征: 多变量 记录数: 1728 领域: N/A
属性特征: 类别型 属性数目: 6 捐赠日期 1997-06-01
相关应用: 分类 缺失值? 网站点击数: 272901

小结

通过比较以上4个数据集的差异,简单地总结:当需要试验较大量的数据时,我们可以想到「Adult」;当想研究变量之间的相关性时,我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时,我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时,我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。

以上数据集下载地址http://archive.ics.uci.edu/ml/


 

文/紫松(简书作者)
原文链接:http://www.jianshu.com/p/be23b3870d2e
著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。

本文转载自:http://www.jianshu.com/p/be23b3870d2e

共有 人打赏支持
Airship
粉丝 38
博文 875
码字总数 18996
作品 0
南京
高级程序员
成为顶尖算法专家需要知道哪些算法?

机器学习算法简介 有两种方法可以对你现在遇到的所有机器学习算法进行分类。 第一种算法分组是学习风格的。 第二种算法分组是通过形式或功能相似。 通常,这两种方法都能概括全部的算法。但是...

【方向】
10/11
0
0
【火炉炼AI】机器学习020-使用K-means算法对数据进行聚类分析

【火炉炼AI】机器学习020-使用K-means算法对数据进行聚类分析 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 前面的机器学习类文章(编号从...

炼丹老顽童
09/03
0
0
用机器学习构建模型,进行信用卡反欺诈预测

本文通过利用信用卡的历史交易数据进行机器学习,构建信用卡反欺诈预测模型,提前发现客户信用卡被盗刷的事件。 1. 数据的下载和数据介绍 数据的下载地址为 https://www.kaggle.com/dalpozz...

openfea
2017/11/07
0
0
入门 | 10个例子带你了解机器学习中的线性代数

  选自machinelearningmastery   作者:Jason Brownlee   机器之心编译   参与:张倩、刘晓坤      本文介绍了 10 个常见机器学习案例,这些案例需要用线性代数才能得到最好的理...

机器之心
04/30
0
0
开源的机器学习框架应当如何选择?

为何要选择机器学习框架呢?使用开源工具的好处不仅仅在于其可用性。通常来说,如此级别的项目均有大量的数据工程师和数据科学家愿意去分享数据集和前期训练模型。比如,你可以使用分类模型训...

小欣妹妹
04/20
0
0

没有更多内容

加载失败,请刷新页面

加载更多

简单谈一谈压力测试

最近,在做API的压力测试,趟了不少坑,然后呢,简要记录一下。 压测前需要准备的一些事 拿到API文档不要立马上手,先基准测试,就是执行一次接口测试,至少要压这个接口,要先熟悉一下他的参...

浮躁的码农
31分钟前
0
0
PHP 错误调查

一.定义:PHP错误是由PHP无法读懂执行的代码引起的错误。 二:错误日志 error log 1.在php.ini 里设置 log_errors = on, log文件位置 error_log=/tmp/php_errors.log 2.代码里设置ini_set('...

忙碌的小蜜蜂
34分钟前
0
0
knn算法

import numpy as np def CreateDateSet(): group = np.array([[1.0, 2.0], [1.2, 0.1], [0.1, 1.4], [0.3, 3.5]]) labels = ['A','A','B','B'] return group,labels coding:utf-8 from numpy......

南桥北木
34分钟前
0
0
自己手写一个 SpringMVC 框架

前端框架很多,但没有一个框架称霸,后端框架现在Spring已经完成大一统.所以学习Spring是Java程序员的必修课. Spring 框架对于 Java 后端程序员来说再熟悉不过了,以前只知道它用的反射实现的,...

别打我会飞
今天
2
0
01-《Apache Tomcat 9》之文件索引

《Apache Tomcat 9》是《看Apache官方文档学英语》的第一个专栏!让我们一起在看文档的过程中学英语,在学英语的过程中夯实技术! Documentation Index - 文件索引 Introduction - 介绍 This...

飞鱼说编程
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部