文档章节

机器学习-第十一讲--过拟合

Betty__
 Betty__
发布于 2016/11/01 14:51
字数 391
阅读 34
收藏 0

1.介绍

在探索回归时,我们简短的提到过度拟合及它可能导致的一些问题。在这节课中,我们将会探索怎样定义过拟合及可以做些什么来避免这种情况。为了探索过度拟合,我们将会使用关于一些汽车的数据集,它包含7个数字的特征,对汽车燃油效率的影响。

cylinders-发动机的气缸cylinders数量

displacement--发动机的位移displacement 

horsepower---发动机的马力horsepower 

weight--汽车的重量

acceleration--汽车的加速度

model year-汽车的生产年份(比如 70代表产于1970年)

origin--汽车的制造地(0北美,1欧洲,2亚洲)

mpg列是我们的目标列,也是我们想要使用其他特征来预测的列。

数据集是由加利福尼亚的尔湾分校在他们的机器学习库中保存。你将会注意到文件夹包含一些不同的文件。我们将会研究auto-mpg.data,在燃料效率方面,它已经删掉了8行包含缺失值的行(mpg列)

以下代码包含Pandas,在数据框架中读取数据,并且清理一些凌乱的数据。探索数据集,对它更加熟悉一些。

练习:

这是一个演示步骤。自己练习代码或者跳转到下一步。

import pandas as pd

columns=["mpg","cylinders","displacement","horsepower","weight","acceleration","model year","origin","car name"]

cars=pd.read_table("auto-mpg.data",delim_whitespace=True,names=columns)

filtered_cars=cars[cars["horsepower"]!=="?"]

filtered_cars["horsepower"]=filtered_cars["horsepower"].astype("float")

 

本文转载自:dataquest.io

Betty__
粉丝 7
博文 360
码字总数 46678
作品 0
武汉
私信 提问
【官方授权】2018 秋季伯克利大学 CS 294-112 《深度强化学习》学习小组成员招募

AI 研习社又有新的学习小组啦!赶快加入我们吧! 扫描二维码,即可加入小组 课程开始后,小组成员可免费观看课程视频~ AI 研习社获得官方授权,汉化翻译伯克利大学 CS 294-112 《深度强化学习...

雷锋字幕组
2018/12/19
0
0
重磅 | CS 294 2018 今日开课!双语字幕独家上线!

AI 研习社获得官方授权,汉化翻译伯克利大学 CS 294-112 《深度强化学习》,今天正式上线中英双语字幕版课程啦! 我们先来一睹为快—— 第一讲 课程介绍和概览 上手视频约 5 分钟 翻译 | 朱海...

雷锋字幕组
2018/12/20
0
0
深度学习笔记4:深度神经网络的正则化

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定! 对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴...

天善智能
2018/07/17
0
0
Wex5 3.3版本外卖教程

外卖数据交互 外卖概述 第一讲 搭建页面框架 第二讲 开发菜品列表页 第三讲 开发购物车页 第四讲 开发我的信息页 第五讲 开发订单页 第六讲 细节处理 第七讲 开发后端服务 第八讲 在App中支付...

muyu
2016/01/17
688
0
《深度学习Ng》课程学习笔记02week1——深度学习的实用层面

http://blog.csdn.net/u011239443/article/details/77947043 1.1 训练 / 开发 / 测试集 1.2 偏差 / 方差 低偏差高方差,则表示泛化能力不强,可能过拟合。 高偏差,则表示可能还欠拟合。 1....

u011239443
2017/09/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

C 语言 二级指针的使用

#include <stdio.h>#include <stdlib.h>typedef struct node Node;struct node {int data;struct node* next;struct node* prev;};Node head;Node* insert(Node......

小张525
46分钟前
2
0
【大数据技术】——Hadoop(1)

什么是大数据 基本概念 《数据处理》 在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经...

须臾之余
59分钟前
8
0
比特币从地址逆向计算私钥

区块链 区块链简介 说到比特币,就不得不提区块链。那什么是区块链呢? 区块链本质是一个数据集,只不过数据的组织采用了比较特殊的方式,就是把数据拆分为一块一块的小数据集。 为什么要进行...

trayvon
今天
1
0
TypeScript……真香

写前端或者用 node 写命令行小工具一直采用的 es6 的语法,对于 TypeScript 则是秉持敬而远之的态度,毕竟团队中多推广一门语言所需要花费的精力都是让人望而却步的。所以对于 JavaScript 的...

郁也风
今天
3
0
shell基本案例

1、自定义rm linux系统的rm命令太危险,一不小心就会删除掉系统文件。 写一个shell脚本来替换系统的rm命令,要求当删除一个文件或者目录时,都要做一个备份,然后再删除。下面分两种情况,做...

寰宇01
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部