文档章节

中文文本分类

Galy_绿
 Galy_绿
发布于 2016/07/10 23:30
字数 458
阅读 95
收藏 1

中文分词算法:基于概率图模型的条件机场(CRF)
文本或句子的结构化可分为:词向量空间模型、主题模型、依存句法的树表示、RDF的图表示

分词器 jieba 分词模式:默认切分、全切分、搜索引擎切分
分词的目的:文本实现了最基础的结构化
存储分词利用的数据结构:Bunch    


机器学习算法库:Scikit-Learn  //可以学习各种算法:http://scikit-learn.org/stable/
停用词    //下载 http://www.threedweb.cn/thread-1294-1-1.html
权重策略:TF-IDF 词频逆文档频率
词频(Term Frequency):某个给定的词语在该文件中出现的频率
逆向文件频率(Inverse Document Frequency,IDF):一个词语重要性的度量
算法参见书:

常见文本分类算法:kNN最近邻算法、朴素贝叶斯算法、向量机算法

训练步骤:分词-》生成文件词向量文件-》词向量模型

分来结果评估
三个基本指标:①召回率(也叫查全率)②准确率 ③F-Measure


朴素贝叶斯算法的基本原理和简单的Python实现
朴素贝叶斯分类:一种简单的分类算法(思想基础简单:即一个对象中特征向量种每个维度都是相互独立的)
朴素贝叶斯分类的正式定义:


kNN:向量间的距离衡量相似度来进行文本分类

文本分类:
    分词-》生成文件词向量文件-》词向量模型
                            生成词向量模型时需要加载训练词袋,将测试集产生的词向量映射到训练集词袋的词典中

 

//由于机器学习刚开始攻克所以先把简易的读书笔记进行罗列。后面熟悉了再来修正

© 著作权归作者所有

共有 人打赏支持
上一篇: 决策树
Galy_绿
粉丝 12
博文 133
码字总数 14908
作品 0
海淀
私信 提问
干货|免费文本语料训练数据集

关于Word2Vec,上篇文章文本分类特征提取之Word2Vec中已有还算详尽的叙述。简单总结下:word2vec是Google在2013年提出的一款开源工具,其是一个Deep Learning模型(实际上该模型层次较浅,严...

m0epnwstyk4
2017/12/18
0
0
自然语言处理(NLP)相关

ヾ(◍°∇°◍)ノ゙-参考 结巴分词使用 中文分词之结巴分词~~~附使用场景+demo(net) jieba分词、自定义词典提取高频词、词性标注及获取词的位置 jieba分词增加自定义词表 词性标注 [pytho...

致Great
2017/12/11
0
0
【招聘】NLP文本挖掘工程师招聘-深圳大学传播学院大数据传播实验室

深圳大学大数据传播实验室特招机器学习、数据挖掘工程师,主要负责机器学习、NLP中文文本挖掘。 详细岗位要求如下: 职位:数据挖掘、NLP工程师 地点:深圳南山区-深圳大学传播学院(腾讯滨海...

Senovn
今天
0
0
构想:中文文本标注工具(内附多个开源文本标注工具)

自然语言处理的大部分任务是监督学习问题。序列标注问题如中文分词、命名实体识别,分类问题如关系识别、情感分析、意图分析等,均需要标注数据进行模型训练。深度学习大行其道的今天,基于深...

技术小能手
2017/11/17
0
0
Python中文文本处理库--SnowNLP

SnowNLP:一个处理中文文本的 Python 类库 简介 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文...

李宇飞
2014/07/12
5.8K
0

没有更多内容

加载失败,请刷新页面

加载更多

eslint rules 规则

'rules': { "comma-dangle": ["error", "never"], //是否允许对象中出现结尾逗号 "no-cond-assign": 2, //条件语句的条件中不允许出现赋值运算符 "no-console": 2, //不允许出现console语句 ...

agenyun
46分钟前
1
0
类型判断时instanceof和equals的不同用法

接口设计时为了避免序列化的麻烦,将接口定义为参数为map<String,String>类型的接口,但是现在调用时需要转换当前的实体Bean为Map,接口接收方再把Map转换为另一个Bean实体。过程中的需要对类...

wangtx
52分钟前
3
0
vue 组件间传值(个人精编)

1.父组件向子组件传值 1⃣️.子组件标签绑定需要传递的参数名2⃣️.子组件页面使用props 接收参数 2.子组件向父组件传值  1⃣️.子组件使用$emit来触发一个自定义事件,并传递一个参...

MrBoyce
今天
1
0
(荷兰)彼得·冯·门施著:博物馆学研究的目的

博物馆学研究的目的 (荷)彼得·冯·门施 尽管诸多关于博物馆学认知目的的不同看法可以被归纳为数个主要群体,但没有一个群体可以被称为“学派”。一般来说,学派是由于博物馆学研究目的的不...

乔老哥
今天
3
0
Vue slot的用法

之前看官方文档,由于自己理解的偏差,不知道slot是干嘛的,看到小标题,使用Slot分发内容,就以为 是要往下派发内容。然后就没有理解插槽的概念。其实说白了,使用slot就是先圈一块地,将来...

peakedness丶
今天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部