文档章节

特征选择

来来叔叔
 来来叔叔
发布于 2017/08/04 23:56
字数 531
阅读 4
收藏 0
点赞 0
评论 0

    特征选择是指从一组给定的特征集中,按照某一准则选择出一组具有良好区分特性的特征子集。特征选择又称独立评估法,在进行特征选择时一般都是利用某种评价函数独立地对每个原始特征项进行评分,然后将它们按分值的高低排序,从中选取若干个分值最高的特征项。

特征选择实际包含两个方面:特征提取和特征选择。特征提取是一种将数据从高维空间到低维空间的变换,达到降维的目的;特征选择是指从一组特征中去除冗余或不相关的特征来降维。两者常联合使用。

      特征选择的作用主要是降低计算开销和提高分类性能。即可以减小数据处理量、节省处理时间,减轻数据中噪声的影响,提高信息处理系统的性能。

      良好的特征集一般具有以下几个特点:可区分性、可靠性、独立性、数量少。

      特征选择的基本方法为:先产生特征子集(选择算法),然后对子集进行评价(评价标准)。

     特征子集的形成方法有:穷举法、启发法、随机法。

     评价函数可分为:

筛选器(评价函数与分类器无关)

封装器(采用分类器的错误概率作为评价函数):距离测度、信息测度、相关性测度、一致性测度。

    常见的特征提取方法有:主成分分析(PCA)、LDA(线性奇异分析)、独立分量分析(ICA)、神经网络、粗糙集属性约简等。而比较新的方法有:非线性降维方法、流形学习等,它们正成为特征选择的研究热点。

注:PCA与LDA的区别

PCA:非监督学习,把原始数据作为一类,使数据尽可能分开

LDA:有监督学习,已知两类数据的类别,使该两类尽可能分开

© 著作权归作者所有

共有 人打赏支持
来来叔叔
粉丝 0
博文 100
码字总数 55732
作品 0
广州
高级程序员
机器学习之特征工程-特征选择

一个基本的数据挖掘场景如下: 数据挖掘.jpg 从上面的数据挖掘场景可知,当数据预处理完成后,我们需要选择有意义的特征,输入机器学习的算法模型进行训练。通常来说,从两个方面考虑来选择特...

jacksu在简书 ⋅ 2017/08/09 ⋅ 0

【数据平台】sklearn库特征工程之特征选择和降维

1、特征选择 当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征: 特征是否发散:如果一个特征不发散,例如方差接近于0...

fjssharpsword ⋅ 2017/12/19 ⋅ 0

特征选择算法在微博业务应用中的演进历程

近年来,人工智能与机器学习的应用越来越广泛,尤其是在互联网领域。在微博,机器学习被广泛地应用于微博的各个业务,如Feed流、热门微博、消息推送、反垃圾、内容推荐等。 值得注意的是,深...

fl63zv9zou86950w ⋅ 2017/12/22 ⋅ 0

特征选择与稀疏学习(Feature Selection and Sparse Learning)

本博客是针对周志华教授所著《机器学习》的“第11章 特征选择与稀疏学习”部分内容的学习笔记。 在实际使用机器学习算法的过程中,往往在特征选择这一块是一个比较让人模棱两可的问题,有时候...

qq_32690999 ⋅ 2017/12/21 ⋅ 0

机器学习 西瓜书 Day14 特征选择与稀疏学习

p247 - p266 哈哈哈感觉今天看书的状态不错 看来有希望把欠的两天都补上呀 不多说了进入第11章 第11章 特征选择与稀疏学习 11.1 子集搜索与评价 从给定的特征集合中选择相关特征子集的过程,...

皇家马德里主教练齐达内 ⋅ 05/23 ⋅ 0

机器学习之sklearn(1)

使用sklearn做单机特征工程 目录 1 特征工程是什么? 2 数据预处理   2.1 无量纲化     2.1.1 标准化     2.1.2 区间缩放法     2.1.3 标准化与归一化的区别   2.2 对定量特...

john_wzq ⋅ 05/24 ⋅ 0

使用sklearn做单机特征工程(Performing Feature Engineering Using sklearn)

本文转载自使用sklearn做单机特征工程 目录 目录 特征工程是什么 数据预处理 特征选择 降维 总结 参考资料 1 特征工程是什么?   有这么一句话在业界广泛流传:数据和特征决定了机器学习的...

qq_32690999 ⋅ 2017/12/25 ⋅ 0

特征工程与数据预处理讲解

特征工程与数据预处理 1. 特征工程定义 通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 从这个概念可...

c295655244的博客 ⋅ 2017/12/14 ⋅ 0

机器学习中的特征选择的方法以及注意点

关于机器学习中的特征我有话要说 在这次校园招聘的过程中,我学到了很多的东西,也纠正了我之前的算法至上的思想,尤其是面试百度的过程中,让我渐渐意识到机器学习不是唯有算法,机器学习是...

小小屋主 ⋅ 2017/03/28 ⋅ 0

【转】使用sklearn做单机特征工程

这里是原文 说明:这是我用Markdown编辑的第一篇随笔 目录 1 特征工程是什么? 2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 无量纲化与正则化的区别 2.2 对定量特征二值...

罗兵 ⋅ 2016/06/24 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

spring Email

一、普通邮件 maven依赖 <dependency> <groupId>org.springframework</groupId> <artifactId>spring-context-support</artifactId> <version>4.2.6.RELEASE</version>......

BobwithB ⋅ 11分钟前 ⋅ 0

spark 整理的一些知识

Spark 知识点 请描述spark RDD原理与特征? RDD全称是resilient distributed dataset(具有弹性的分布式数据集)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的...

tuoleisi77 ⋅ 15分钟前 ⋅ 0

思考

时间一天天过感觉自己有在成长吗?最怕的是时光匆匆而过,自己没有收获!下面总结下最近自己的思考。 认识自己 认识另一个自己,人们常说要虚心听取别人意见和建议。然而人往往是很难做到的,...

hello_hp ⋅ 15分钟前 ⋅ 0

IT行业的变革就像世界杯德国对战墨西哥一样难以预测[图]

最近在观看世界杯,尤其是昨天的比赛,上一届卫冕冠军德国队居然0:1告负墨西哥,这创造了历史,首先是墨西哥从来没赢过德国队,其次是德国队36年来首站没输过,再差也是打平,而这次,德国队...

原创小博客 ⋅ 34分钟前 ⋅ 0

解决CentOS6、7,/etc/sysconfig/下没有iptables的问题

一、Centos 6版本解决办法: 1.任意运行一条iptables防火墙规则配置命令: iptables -P OUTPUT ACCEPT 2.对iptables服务进行保存: service iptables save 3.重启iptables服务: service ...

寰宇01 ⋅ 44分钟前 ⋅ 2

数据库备份和恢复

备份:mysqldump -u root -p 数据库>磁盘路径 恢复:mysql -u root -p 数据库<sql脚本的磁盘路径

anlve ⋅ 今天 ⋅ 0

发生了什么?Linus 又发怒了?

在一个 Linux 内核 4.18-rc1 的 Pull Request 中,开发者 Andy Shevchenko 表示其在对设备属性框架进行更新时,移除了 union 别名,这引发了 Linus 的暴怒。 这一次 Linus Torvalds 发怒的原...

问题终结者 ⋅ 今天 ⋅ 0

在树莓派上搭建一个maven仓库

在树莓派上搭建一个maven仓库 20180618 lambo init 项目说明 家里有台树莓派性能太慢。想搭建一个maven私服, 使用nexus或者 jfrog-artifactory 运行的够呛。怎么办呢,手写一个吧.所在这个...

林小宝 ⋅ 今天 ⋅ 0

Spring发展历程总结

转自与 https://www.cnblogs.com/RunForLove/p/4641672.html 目前很多公司的架构,从Struts2迁移到了SpringMVC。你有想过为什么不使用Servlet+JSP来构建Java web项目,而是采用SpringMVC呢?...

onedotdot ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部