文档章节

特征选择

来来叔叔
 来来叔叔
发布于 2017/08/04 23:56
字数 531
阅读 5
收藏 0

    特征选择是指从一组给定的特征集中,按照某一准则选择出一组具有良好区分特性的特征子集。特征选择又称独立评估法,在进行特征选择时一般都是利用某种评价函数独立地对每个原始特征项进行评分,然后将它们按分值的高低排序,从中选取若干个分值最高的特征项。

特征选择实际包含两个方面:特征提取和特征选择。特征提取是一种将数据从高维空间到低维空间的变换,达到降维的目的;特征选择是指从一组特征中去除冗余或不相关的特征来降维。两者常联合使用。

      特征选择的作用主要是降低计算开销和提高分类性能。即可以减小数据处理量、节省处理时间,减轻数据中噪声的影响,提高信息处理系统的性能。

      良好的特征集一般具有以下几个特点:可区分性、可靠性、独立性、数量少。

      特征选择的基本方法为:先产生特征子集(选择算法),然后对子集进行评价(评价标准)。

     特征子集的形成方法有:穷举法、启发法、随机法。

     评价函数可分为:

筛选器(评价函数与分类器无关)

封装器(采用分类器的错误概率作为评价函数):距离测度、信息测度、相关性测度、一致性测度。

    常见的特征提取方法有:主成分分析(PCA)、LDA(线性奇异分析)、独立分量分析(ICA)、神经网络、粗糙集属性约简等。而比较新的方法有:非线性降维方法、流形学习等,它们正成为特征选择的研究热点。

注:PCA与LDA的区别

PCA:非监督学习,把原始数据作为一类,使数据尽可能分开

LDA:有监督学习,已知两类数据的类别,使该两类尽可能分开

© 著作权归作者所有

共有 人打赏支持
来来叔叔
粉丝 0
博文 100
码字总数 55732
作品 0
广州
高级程序员
私信 提问
【数据平台】sklearn库特征工程之特征选择和降维

1、特征选择 当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征: 特征是否发散:如果一个特征不发散,例如方差接近于0...

fjssharpsword
2017/12/19
0
0
特征选择算法在微博业务应用中的演进历程

近年来,人工智能与机器学习的应用越来越广泛,尤其是在互联网领域。在微博,机器学习被广泛地应用于微博的各个业务,如Feed流、热门微博、消息推送、反垃圾、内容推荐等。 值得注意的是,深...

fl63zv9zou86950w
2017/12/22
0
0
机器学习之特征工程-特征选择

一个基本的数据挖掘场景如下: 数据挖掘.jpg 从上面的数据挖掘场景可知,当数据预处理完成后,我们需要选择有意义的特征,输入机器学习的算法模型进行训练。通常来说,从两个方面考虑来选择特...

jacksu在简书
2017/08/09
0
0
特征工程完全总结(Python源码)

目录 1 特征工程是什么? 2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 ...

CodingFish
2017/04/16
0
0
Python中机器学习的特征选择工具

特征选择,即在数据集中查找和选择最有用的特征的过程,是机器学习的关键步骤。不必要的特征会降低训练速度、模型的可解释性,最重要的是会降低测试集的泛化性能。 我对临时的特征选择方法感...

【方向】
07/15
0
0

没有更多内容

加载失败,请刷新页面

加载更多

eureka多注册中心

eureka分区的深入讲解

miaojiangmin
28分钟前
2
0
RAM SSO功能重磅发布 —— 满足客户使用企业本地账号登录阿里云

阿里云RAM (Resource Access Management)为客户提供身份与访问控制管理服务。使用RAM,可以轻松创建并管理您的用户(比如雇员、企业开发的应用程序),并控制用户对云资源的访问权限。 对云资...

阿里云官方博客
31分钟前
3
0
Mysql 8.0 | #08004Client does not support authentication protocol requested by server

完整报错 #08004Client does not support authentication protocol requested by server; consider upgrading MySQL client 解决方法 Using the old mysql_native_password works:ALTER ......

云迹
33分钟前
1
0
kylin入门到实战

1.概述 kylin是一款开源的分布式数据分析工具,基于hadoop之上的sql查询接口,能支持超大规模的数据分析。响应时间在亚秒级别,其核心是预计算,计算结果存放在hbase中。 2.特性 可扩展超快O...

hblt-j
36分钟前
1
0
vagrant mac 安装和使用

varant 在mac上使用起来非常的方便,具体的下载步骤可以看这里https://segmentfault.com/a/1190000000264347 这里主要是记录一下配置文件 # -*- mode: ruby -*- # vi: set ft=ruby : # All V...

一千零一夜个为什么
37分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部