文档章节

机器学习第四章:决策树

DDDDavid
 DDDDavid
发布于 2017/08/29 18:46
字数 689
阅读 91
收藏 0

精选30+云产品,助力企业轻松上云!>>>

4.1基本流程

基本思路:分而治之

导致递归返回的三种情形:

(1)  当前节点样本属于同一类别,无需划分;

(2)  当前属性集为空,或所有样本属性值相同,无法划分;

(3)  当前节点包含的样本集合为空,不能划分。

 

4.2划分选择

ID3决策树算法:以信息增益为准则

CART决策树:以“基尼指数”为准则

C4.5决策树算法:以信息增益的权重为准则,采用二分法对连续属性进行处理

多变量决策树:属性的线性组合,OC1,寻找每个属性的最有权值,局部优化再对分类边界随机扰动。

 

4.3剪枝处理

预剪枝:对划分前后的泛化性能进行估计,具有欠拟合风险;

后剪枝:欠拟合风险小,泛化性能较优,训练时间较长;

连续值处理:二分法

缺失值处理:赋予权重

多变量决策树:对属性进行线性组合

OC1:局部优化的基础上再对分类边界进行随机扰动

 

感知机树:结合决策树和神经网络

增量学习:ID4、ID5R、ITI等

 

随机森林算法:多棵树木组成森林,随机挑选树木,根据结果判断是为随机森林。

包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。

构建随机森林:数据的随机性选取,以及待选特征的随机选取。

首先,从原始的数据集中采取有放回的抽样,构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。第二,利用子数据集来构建子决策树,将这个数据放到每个子决策树中,每个子决策树输出一个结果。最后,如果有了新的数据需要通过随机森林得到分类结果,就可以通过对子决策树的判断结果的投票,得到随机森林的输出结果了。

与数据集的随机选取类似,随机森林中的子树的每一个分裂过程并未用到所有的待选特征,而是从所有的待选特征中随机选取一定的特征,之后再在随机选取的特征中选取最优的特征。这样能够使得随机森林中的决策树都能够彼此不同,提升系统的多样性,从而提升分类性能。

DDDDavid
粉丝 0
博文 6
码字总数 3947
作品 0
东城
程序员
私信 提问
加载中
请先登录后再评论。
Python编程实验一 决策树实现结果预测

题目:给定如下训练集和测试集,参考《机器学习》(Tom Mitchell)第三章和《机器学习》(周志华)第四章,先阅读ID3、C4.5和CART算法并且仔细阅读附件给出的ID3、C4.5算法python程序,再实现...

osc_tfyi1pmt
2019/06/30
9
0
周志华《机器学习》手推笔记正式开源!持续更新中... - 知乎

红色石头的个人网站:红色石头的个人博客-机器学习、深度学习之路 导读:本笔记是博士 AI 系列手推笔记,来源并整理自公众号【计算机视觉联盟】。目前,该手推笔记已经更新至第四章。作者回持...

AI有道
2019/10/21
0
0
机器学习

第一章:机器学习基础 01 机器学习 → B站视频链接 第二章:监督学习 B站视频链接 01 感知机 02 感知机原始形式(鸢尾花分类) 03 感知机对偶形式(鸢尾花分类) 04 线性回归 05 scikit-learn库之...

小猿取经
2019/10/13
0
0
《机器学习》(周志华)课后习题参考答案

目录: 周志华《机器学习》课后习题解答系列(二):Ch1 - 绪论 周志华《机器学习》课后习题解答系列(三):Ch2 - 模型评估与选择 周志华《机器学习》课后习题解答系列(四):Ch3 - 线性模...

kchai31
2018/01/04
0
0
Python机器学习中文版

Python机器学习简介 第一章 让计算机从数据中学习 将数据转化为知识 三类机器学习算法 第二章 训练机器学习分类算法 透过人工神经元一窥早期机器学习历史 使用Python实现感知机算法 基于Iri...

osc_t4d5tw3o
2018/03/12
4
0

没有更多内容

加载失败,请刷新页面

加载更多

App Builder 2020中文版

教程: 1、断开网络连接,下载解压,运行对应操作系统App Builder 2020安装包; 2、在弹出的窗口中勾选同意条款协议,点击【Next】; 3、创建桌面快捷方式,点击【Next】; 4、一切准备就绪,...

osc_62a7f5bj
12分钟前
19
0
蚂蚁金服轻量级类隔离框架 Maven 打包插件解析 | SOFAArk 源码解析

SOFAStack(Scalable Open Financial Architecture Stack)是蚂蚁金服自主研发的金融级云原生架构,包含了构建金融级云原生架构所需的各个组件,是在金融场景里锤炼出来的最佳实践。 本文为《...

SOFAStack
03/19
11
0
Java 高级 面试题 及 参考答案

一、面试题基础总结 1、 JVM结构原理、GC工作机制详解 答:具体参照:JVM结构、GC工作机制详解 ,说到GC,记住两点:1、GC是负责回收所有无任何引用对象的内存空间。 注意:垃圾回收回收的是无...

osc_np3y0rbq
13分钟前
10
0
面试准备季——MyBatis 面试专题(含答案)

写在前面:2020年面试必备的Java后端进阶面试题总结了一份复习指南在Github上,内容详细,图文并茂,有需要学习的朋友可以Star一下! GitHub地址:https://github.com/abel-max/Java-Study-...

osc_1ipdqsf2
14分钟前
8
0
Redis 高频面试题:10w+QPS 的 Redis 真的只是因为单线程和基于内存?

你以为 Redis 这么快仅仅因为单线程和基于内存? 那么你想得太少了,我个人认为 Redis 的快是基于多方面的:不但是单线程和内存,还有底层的数据结构设计,网络通信的设计,主从、哨兵和集群...

osc_qgfjs4a5
14分钟前
14
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部