文档章节

文本特征提取算法实现

ivan-Zhao
 ivan-Zhao
发布于 2017/04/07 15:53
字数 305
阅读 258
收藏 1

最近因项目需要,对文本做情感分析,由于文本分词后词向量比较大,不自觉地研究了一下文本特征提取的方法,一不小心实现了两种方法:卡方检验和信息增益提取文本特征。源码已经上传到Git,欢迎大家移步Git,给提点意见。

Git:https://github.com/JFanZhao/feature_extraction

基使用方法:

//创建特征提取对象,可以使用卡方校验或者信息增益两种方法
IFeatureExtraction featureExtraction = new CHIFeatureExtractionImpl();
//IFeatureExtraction featureExtraction = new IGFeatureExtractionImpl();
//构造样本集 map的key是样本的标签,value 是对应的每个类别下的样本分词结果
Map<String,List<List<String>>> datas = new HashMap<String, List<List<String>>>();
//调用特征提取方法  第二个参数特征的个数,也可以不写,默认是300
List<String> features = featureExtraction.featureExtraction(datas, 500);  

另外,算法的原理主要参考一下两个博文,特别感谢两位博主的无私奉献。

文本分类入门(十一)特征选择方法之信息增益

文本特征词提取算法

© 著作权归作者所有

ivan-Zhao
粉丝 10
博文 33
码字总数 29110
作品 0
深圳
程序员
私信 提问
机器学习框架ML.NET学习笔记【3】文本特征分析

一、要解决的问题 问题:常常一些单位或组织召开会议时需要录入会议记录,我们需要通过机器学习对用户输入的文本内容进行自动评判,合格或不合格。(同样的问题还类似垃圾短信检测、工作日志...

seabluescn
05/30
0
0
jiaba关键词提取提速策略&基于word2vec的关键词提取方法&python中文编码问题&人人网的关键词提取策略

1.jieba关键词提取提速 https://www.jianshu.com/p/450b84a07d3b 之前需要提取关键词,所以介绍了jieba关键词提取,这可能是最简单的提取关键词的方法了,此种方法代码少,(只有两行)但是速...

wong小尧
2018/03/23
0
0
自然语言处理(nlp)比计算机视觉(cv)发展缓慢,而且更难!

https://mp.weixin.qq.com/s/kWw0xce4kdCx62AflY6AzQ 1. 抢跑的nlp nlp发展的历史非常早,因为人从计算机发明开始,就有对语言处理的需求。各种字符串算法都贯穿于计算机的发展历史中。伟大的...

Terminator2050
2018/11/05
0
0
阿里OCR-图像文字的识别和理解

阿里OCR-图像文字的识别和理解 摘要:2018云栖大会上海峰会,阿里巴巴图像高级算法专家王永攀对阿里OCR-文字识别技术解读和应用实例分享。OCR的本质是识别图片中的文字,即在复杂的图片背景下...

云迹九州
2018/06/23
0
0
专栏 | NLP概述和文本自动分类算法详解

  机器之心专栏   作者:达观数据      自然语言处理一直是人工智能领域的重要话题,更是 18 年的热度话题,为了在海量文本中及时准确地获得有效信息,文本分类技术获得广泛关注,也...

机器之心
2018/07/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Excption与Error包结构,OOM 你遇到过哪些情况,SOF 你遇到过哪些情况

Throwable 是 Java 中所有错误与异常的超类,Throwable 包含两个子类,Error 与 Exception 。用于指示发生了异常情况。 Java 抛出的 Throwable 可以分成三种类型。 被检查异常(checked Exc...

Garphy
21分钟前
2
0
计算机实现原理专题--二进制减法器(二)

在计算机实现原理专题--二进制减法器(一)中说明了基本原理,现准备说明如何来实现。 首先第一步255-b运算相当于对b进行按位取反,因此可将8个非门组成如下图的形式: 由于每次做减法时,我...

FAT_mt
昨天
6
0
好程序员大数据学习路线分享函数+map映射+元祖

好程序员大数据学习路线分享函数+map映射+元祖,大数据各个平台上的语言实现 hadoop 由java实现,2003年至今,三大块:数据处理,数据存储,数据计算 存储: hbase --> 数据成表 处理: hive --> 数...

好程序员官方
昨天
7
0
tabel 中含有复选框的列 数据理解

1、el-ui中实现某一列为复选框 实现多选非常简单: 手动添加一个el-table-column,设type属性为selction即可; 2、@selection-change事件:选项发生勾选状态变化时触发该事件 <el-table @sel...

everthing
昨天
6
0
【技术分享】TestFlight测试的流程文档

上架基本需求资料 1、苹果开发者账号(如还没账号先申请-苹果开发者账号申请教程) 2、开发好的APP 通过本篇教程,可以学习到ios证书申请和打包ipa上传到appstoreconnect.apple.com进行TestF...

qtb999
昨天
10
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部