文档章节

特征选择

_
 _Roger_
发布于 2015/10/22 01:03
字数 579
阅读 97
收藏 0

1、特征选择

    特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。

    在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的后果:

  • 特征个数越多,分析特征、训练模型所需的时间就越长。

  • 特征个数越多,容易引起“维度灾难”,模型也会越复杂,其推广(泛化)能力会下降。

    特征选择能剔除不相关(irrelevant)或亢余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。


2、特征选择的方法

2.1、互信息MI(expected mutual information)

    MI度量的是词项的存在与否给类别c的正确判断所带来的信息量。如果信息量越大,那么特征和这个类别的相关性越大。

2.2、卡方检验,X2

    用于检验两个事件的独立性,分别指词项的出现和类别的出现。

    先假设两个事件是独立的,若卡方值越大,显著性越大,说明两者差别越明显,更可能相互独立。卡方值越小,说明两者相互依赖,词项的出现也会使某个类别的出现更有可能。

2.3、基于频率

    选择那些在类别中频率较高的词项作为特征。

    这里的频率可以定义为文档频率(类别中包含某个词项c的文档数目),或文档集频率(c类别中所有文档中t出现的总次数)。

    文档频率更适合贝努利模型,而文档集频率更适合多项式模型。


    由于X2基于显著统计性来选择特征,因此它会比MI选出更多的罕见词项,而这些词项出现次数太少所提供的信息量是不够的,因为对分类来说是不太可靠的。

© 著作权归作者所有

共有 人打赏支持
_
粉丝 29
博文 82
码字总数 39915
作品 0
武汉
私信 提问
【数据平台】sklearn库特征工程之特征选择和降维

1、特征选择 当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征: 特征是否发散:如果一个特征不发散,例如方差接近于0...

fjssharpsword
2017/12/19
0
0
特征选择算法在微博业务应用中的演进历程

近年来,人工智能与机器学习的应用越来越广泛,尤其是在互联网领域。在微博,机器学习被广泛地应用于微博的各个业务,如Feed流、热门微博、消息推送、反垃圾、内容推荐等。 值得注意的是,深...

fl63zv9zou86950w
2017/12/22
0
0
机器学习之特征工程-特征选择

一个基本的数据挖掘场景如下: 数据挖掘.jpg 从上面的数据挖掘场景可知,当数据预处理完成后,我们需要选择有意义的特征,输入机器学习的算法模型进行训练。通常来说,从两个方面考虑来选择特...

jacksu在简书
2017/08/09
0
0
特征工程完全总结(Python源码)

目录 1 特征工程是什么? 2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 ...

CodingFish
2017/04/16
0
0
Python中机器学习的特征选择工具

特征选择,即在数据集中查找和选择最有用的特征的过程,是机器学习的关键步骤。不必要的特征会降低训练速度、模型的可解释性,最重要的是会降低测试集的泛化性能。 我对临时的特征选择方法感...

【方向】
07/15
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Android :报错Your project path contains non-ASCII characters.

报错内容如下 Your project path contains non-ASCII characters. This will most likely cause the build to fail on Windows. Please move your project to a different directory. See ht......

lanyu96
3分钟前
0
0
[LintCode] Number of Islands(岛屿个数)

描述 给一个01矩阵,求不同的岛屿的个数。 0代表海,1代表岛,如果两个1相邻,那么这两个1属于同一个岛。我们只考虑上下左右为相邻。 样例 在矩阵: [ [1, 1, 0, 0, 0], [0, 1, 0, 0, ...

honeymose
4分钟前
0
0
Nginx平滑添加模块

Nginx已经编译安装并运行了一段时间, 然后某一天, 发现需要用到某个模块但当初没有编译, 这个时候怎么办呢? 卸载重新安装肯定可以的, 如果Nginx版本没有变更的话, 则有一个相对平滑的方法来添...

老菜鸟0217
9分钟前
0
0
spark安装测试

spark安装测试 由于本地已经安装好hadoop相关组件,所以本文是在yarn的基础上对spark进行安装及测试 确保hdfs及yarn成功启动,hadoop版本为2.7.3 安装scala,由于本人安装的spark是2.4.0,对应...

-九天-
22分钟前
3
0
周末看完了《电能计量自动化技术》

整体质量还行,下面分别将心得记录如下: 第一章:发展历程可以看看,现在算是智能电网阶段 2:讲主站系统。以文件进行各模块的交互很值得思考,尤其是批量数据,多团队合作的情况下。另外线...

max佩恩
42分钟前
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部