文档章节

特征选择

_
 _Roger_
发布于 2015/10/22 01:03
字数 579
阅读 97
收藏 0
点赞 0
评论 0

1、特征选择

    特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。

    在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的后果:

  • 特征个数越多,分析特征、训练模型所需的时间就越长。

  • 特征个数越多,容易引起“维度灾难”,模型也会越复杂,其推广(泛化)能力会下降。

    特征选择能剔除不相关(irrelevant)或亢余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。


2、特征选择的方法

2.1、互信息MI(expected mutual information)

    MI度量的是词项的存在与否给类别c的正确判断所带来的信息量。如果信息量越大,那么特征和这个类别的相关性越大。

2.2、卡方检验,X2

    用于检验两个事件的独立性,分别指词项的出现和类别的出现。

    先假设两个事件是独立的,若卡方值越大,显著性越大,说明两者差别越明显,更可能相互独立。卡方值越小,说明两者相互依赖,词项的出现也会使某个类别的出现更有可能。

2.3、基于频率

    选择那些在类别中频率较高的词项作为特征。

    这里的频率可以定义为文档频率(类别中包含某个词项c的文档数目),或文档集频率(c类别中所有文档中t出现的总次数)。

    文档频率更适合贝努利模型,而文档集频率更适合多项式模型。


    由于X2基于显著统计性来选择特征,因此它会比MI选出更多的罕见词项,而这些词项出现次数太少所提供的信息量是不够的,因为对分类来说是不太可靠的。

© 著作权归作者所有

共有 人打赏支持
_
粉丝 29
博文 82
码字总数 39915
作品 0
武汉
机器学习之特征工程-特征选择

一个基本的数据挖掘场景如下: 数据挖掘.jpg 从上面的数据挖掘场景可知,当数据预处理完成后,我们需要选择有意义的特征,输入机器学习的算法模型进行训练。通常来说,从两个方面考虑来选择特...

jacksu在简书 ⋅ 2017/08/09 ⋅ 0

【数据平台】sklearn库特征工程之特征选择和降维

1、特征选择 当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征: 特征是否发散:如果一个特征不发散,例如方差接近于0...

fjssharpsword ⋅ 2017/12/19 ⋅ 0

特征选择算法在微博业务应用中的演进历程

近年来,人工智能与机器学习的应用越来越广泛,尤其是在互联网领域。在微博,机器学习被广泛地应用于微博的各个业务,如Feed流、热门微博、消息推送、反垃圾、内容推荐等。 值得注意的是,深...

fl63zv9zou86950w ⋅ 2017/12/22 ⋅ 0

特征选择与稀疏学习(Feature Selection and Sparse Learning)

本博客是针对周志华教授所著《机器学习》的“第11章 特征选择与稀疏学习”部分内容的学习笔记。 在实际使用机器学习算法的过程中,往往在特征选择这一块是一个比较让人模棱两可的问题,有时候...

qq_32690999 ⋅ 2017/12/21 ⋅ 0

机器学习 西瓜书 Day14 特征选择与稀疏学习

p247 - p266 哈哈哈感觉今天看书的状态不错 看来有希望把欠的两天都补上呀 不多说了进入第11章 第11章 特征选择与稀疏学习 11.1 子集搜索与评价 从给定的特征集合中选择相关特征子集的过程,...

皇家马德里主教练齐达内 ⋅ 05/23 ⋅ 0

使用sklearn做单机特征工程(Performing Feature Engineering Using sklearn)

本文转载自使用sklearn做单机特征工程 目录 目录 特征工程是什么 数据预处理 特征选择 降维 总结 参考资料 1 特征工程是什么?   有这么一句话在业界广泛流传:数据和特征决定了机器学习的...

qq_32690999 ⋅ 2017/12/25 ⋅ 0

机器学习中的特征选择的方法以及注意点

关于机器学习中的特征我有话要说 在这次校园招聘的过程中,我学到了很多的东西,也纠正了我之前的算法至上的思想,尤其是面试百度的过程中,让我渐渐意识到机器学习不是唯有算法,机器学习是...

小小屋主 ⋅ 2017/03/28 ⋅ 0

【转】使用sklearn做单机特征工程

这里是原文 说明:这是我用Markdown编辑的第一篇随笔 目录 1 特征工程是什么? 2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 无量纲化与正则化的区别 2.2 对定量特征二值...

罗兵 ⋅ 2016/06/24 ⋅ 0

机器学习之sklearn(1)

使用sklearn做单机特征工程 目录 1 特征工程是什么? 2 数据预处理   2.1 无量纲化     2.1.1 标准化     2.1.2 区间缩放法     2.1.3 标准化与归一化的区别   2.2 对定量特...

john_wzq ⋅ 05/24 ⋅ 0

特征工程与数据预处理讲解

特征工程与数据预处理 1. 特征工程定义 通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 从这个概念可...

c295655244的博客 ⋅ 2017/12/14 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

线程池

一、线程池:提供了一个线程队列,队列中保存着所有等待状态的线程。避免了创建与销毁额外开销,提高了响应的速度。 二、线程池的体系结构: java.util.concurrent.Executor : 负责线程的使用...

stars永恒 ⋅ 13分钟前 ⋅ 0

你值5K还是15K?实战案例,测测你的分析功力

本文源自陈老师遇到的真实案例。 老板说:“我们今年准备参加展会,做一年。以前我没参加过,没关系,这里有一份展会数据,你回去分析下哪些有价值,后边组织的时候有个指导”。现在你收到任...

加米谷大数据 ⋅ 15分钟前 ⋅ 0

中文转英文功能

package com.sysware.task.util;import net.sourceforge.pinyin4j.PinyinHelper;import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;import net.sourceforge.pinyin4j.for......

AK灬 ⋅ 16分钟前 ⋅ 0

JNI Java层类关联C/C++层的类

Android开发时,因为要实现某某功能,需要集成算法公司的算法库(so库),这就需要自己编写JNI。 通常这些库提供的接口可以概况成1、初始化 2、算法处理 3、释放 4、打印版本号 初始化后会返...

国仔饼 ⋅ 19分钟前 ⋅ 0

maven下载jar包改为阿里云的maven库

一:修改maven安装路径中conf文件夹下的setting.xml文件 <mirrors> <mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content/......

夜醒者 ⋅ 20分钟前 ⋅ 0

电商用户行为分析大数据平台相关系列10-基础数据结构分析

电商用户行为分析大数据平台相关系列1-环境介绍 电商用户行为分析大数据平台相关系列2-HADOOP环境搭建 电商用户行为分析大数据平台相关系列3-HIVE安装 电商用户行为分析大数据平台相关系列4...

xiaomin0322 ⋅ 20分钟前 ⋅ 0

使用readLine()方法遇到的坑

下午玩 TCP/IP 的 Socket 通信时,使用 BufferedReader 的 readLine() 遇到了一个坑,现在终于解决了,特此记录下来。 程序很简单,客户段从控制台读取用户输入,然后发送至服务器端,主要代...

孟飞阳 ⋅ 21分钟前 ⋅ 0

基于Hadoop集群的Hive安装配置(Derby数据库)

Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据,提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行(具体的Hive架构大家自行搜索)。接下来主要讲下Hadoop集群下...

海岸线的曙光 ⋅ 22分钟前 ⋅ 0

CoreOS裸机iso安装和相关配置

裸机通过iso安装CoreOS,个人趟了很多坑,以下就是完整的从零开始部署和配置的过程,希望对大家有用。 一、安装CoreOS到硬盘 1. 准备Live iso镜像,制作好usb启动盘 Live iso下载地址 2. 搭建...

ykbj ⋅ 27分钟前 ⋅ 0

jquery控制表格锁列(转)

表格已经完成后新加的需求,要实现锁表格的第一列。很多带这种效果的都是js封装的框架或者具体某种框架的组件,不适用解决当前问题。作为后端开发又实在不熟样式,搜到了一个可以用的,虽然样...

刘昌鑫 ⋅ 29分钟前 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部