文档章节

特征选择

_
 _Roger_
发布于 2015/10/22 01:03
字数 579
阅读 97
收藏 0

1、特征选择

    特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。

    在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的后果:

  • 特征个数越多,分析特征、训练模型所需的时间就越长。

  • 特征个数越多,容易引起“维度灾难”,模型也会越复杂,其推广(泛化)能力会下降。

    特征选择能剔除不相关(irrelevant)或亢余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。


2、特征选择的方法

2.1、互信息MI(expected mutual information)

    MI度量的是词项的存在与否给类别c的正确判断所带来的信息量。如果信息量越大,那么特征和这个类别的相关性越大。

2.2、卡方检验,X2

    用于检验两个事件的独立性,分别指词项的出现和类别的出现。

    先假设两个事件是独立的,若卡方值越大,显著性越大,说明两者差别越明显,更可能相互独立。卡方值越小,说明两者相互依赖,词项的出现也会使某个类别的出现更有可能。

2.3、基于频率

    选择那些在类别中频率较高的词项作为特征。

    这里的频率可以定义为文档频率(类别中包含某个词项c的文档数目),或文档集频率(c类别中所有文档中t出现的总次数)。

    文档频率更适合贝努利模型,而文档集频率更适合多项式模型。


    由于X2基于显著统计性来选择特征,因此它会比MI选出更多的罕见词项,而这些词项出现次数太少所提供的信息量是不够的,因为对分类来说是不太可靠的。

© 著作权归作者所有

共有 人打赏支持
_
粉丝 29
博文 82
码字总数 39915
作品 0
武汉
机器学习之特征工程-特征选择

一个基本的数据挖掘场景如下: 数据挖掘.jpg 从上面的数据挖掘场景可知,当数据预处理完成后,我们需要选择有意义的特征,输入机器学习的算法模型进行训练。通常来说,从两个方面考虑来选择特...

jacksu在简书
2017/08/09
0
0
【数据平台】sklearn库特征工程之特征选择和降维

1、特征选择 当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征: 特征是否发散:如果一个特征不发散,例如方差接近于0...

fjssharpsword
2017/12/19
0
0
特征选择算法在微博业务应用中的演进历程

近年来,人工智能与机器学习的应用越来越广泛,尤其是在互联网领域。在微博,机器学习被广泛地应用于微博的各个业务,如Feed流、热门微博、消息推送、反垃圾、内容推荐等。 值得注意的是,深...

fl63zv9zou86950w
2017/12/22
0
0
特征工程完全总结(Python源码)

目录 1 特征工程是什么? 2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 ...

CodingFish
2017/04/16
0
0
Python中机器学习的特征选择工具

特征选择,即在数据集中查找和选择最有用的特征的过程,是机器学习的关键步骤。不必要的特征会降低训练速度、模型的可解释性,最重要的是会降低测试集的泛化性能。 我对临时的特征选择方法感...

【方向】
07/15
0
0

没有更多内容

加载失败,请刷新页面

加载更多

LSM-Tree 大数据索引技术

一、LSM-Tree概述 核心思想就是放弃部分读能力,换取写入能力的最大化。LSM-Tree ,这个概念就是结构化合并树(Log-Structured Merge Tree)的意思,它的核心思路其实非常简单,就是假定内存...

PeakFang-BOK
13分钟前
0
0
vue.js响应式原理解析与实现

从很久之前就已经接触过了angularjs了,当时就已经了解到,angularjs是通过脏检查来实现数据监测以及页面更新渲染。之后,再接触了vue.js,当时也一度很好奇vue.js是如何监测数据更新并且重新...

peakedness丶
19分钟前
0
0
Weblogic补丁升级操作步骤

linux平台: weblogic1036 1:停止weblogic服务 2:打FMJJ补丁 a:获取weblogic_home目录并执行命令:export weblogic_home="/weblogic/wls1036_x64",(此目录一般为目录“user_projects”上...

fang_faye
32分钟前
0
0
04-《Apache Tomcat 9 User Guide》之部署项目

1.Introduction Deployment is the term used for the process of installing a web application (either a 3rd party WAR or your own custom web application) into the Tomcat server. 部......

飞鱼说编程
32分钟前
0
0
一位十年的老码农他眼中的区块链

大家可能已经听说过比特币、莱特币、以太币等等,以及它们作为一种新货币在市场上的潜力。 有趣的是,很多投资比特币的人也提到了区块链之类的东西。 显然,这项技术是比特币等其他东西的"基...

小刀爱编程
40分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部