文档章节

中文文本分类

Galy_绿
 Galy_绿
发布于 2016/07/10 23:30
字数 458
阅读 91
收藏 1

中文分词算法:基于概率图模型的条件机场(CRF)
文本或句子的结构化可分为:词向量空间模型、主题模型、依存句法的树表示、RDF的图表示

分词器 jieba 分词模式:默认切分、全切分、搜索引擎切分
分词的目的:文本实现了最基础的结构化
存储分词利用的数据结构:Bunch    


机器学习算法库:Scikit-Learn  //可以学习各种算法:http://scikit-learn.org/stable/
停用词    //下载 http://www.threedweb.cn/thread-1294-1-1.html
权重策略:TF-IDF 词频逆文档频率
词频(Term Frequency):某个给定的词语在该文件中出现的频率
逆向文件频率(Inverse Document Frequency,IDF):一个词语重要性的度量
算法参见书:

常见文本分类算法:kNN最近邻算法、朴素贝叶斯算法、向量机算法

训练步骤:分词-》生成文件词向量文件-》词向量模型

分来结果评估
三个基本指标:①召回率(也叫查全率)②准确率 ③F-Measure


朴素贝叶斯算法的基本原理和简单的Python实现
朴素贝叶斯分类:一种简单的分类算法(思想基础简单:即一个对象中特征向量种每个维度都是相互独立的)
朴素贝叶斯分类的正式定义:


kNN:向量间的距离衡量相似度来进行文本分类

文本分类:
    分词-》生成文件词向量文件-》词向量模型
                            生成词向量模型时需要加载训练词袋,将测试集产生的词向量映射到训练集词袋的词典中

 

//由于机器学习刚开始攻克所以先把简易的读书笔记进行罗列。后面熟悉了再来修正

© 著作权归作者所有

共有 人打赏支持
Galy_绿
粉丝 11
博文 133
码字总数 14908
作品 0
海淀
干货|免费文本语料训练数据集

关于Word2Vec,上篇文章文本分类特征提取之Word2Vec中已有还算详尽的叙述。简单总结下:word2vec是Google在2013年提出的一款开源工具,其是一个Deep Learning模型(实际上该模型层次较浅,严...

m0epnwstyk4
2017/12/18
0
0
自然语言处理(NLP)相关

ヾ(◍°∇°◍)ノ゙-参考 结巴分词使用 中文分词之结巴分词~~~附使用场景+demo(net) jieba分词、自定义词典提取高频词、词性标注及获取词的位置 jieba分词增加自定义词表 词性标注 [pytho...

致Great
2017/12/11
0
0
构想:中文文本标注工具(内附多个开源文本标注工具)

自然语言处理的大部分任务是监督学习问题。序列标注问题如中文分词、命名实体识别,分类问题如关系识别、情感分析、意图分析等,均需要标注数据进行模型训练。深度学习大行其道的今天,基于深...

技术小能手
2017/11/17
0
0
Windows下使用Word2vec继续词向量训练

转载自:http://blog.csdn.net/heyongluoyao8/article/details/43488765 word2vec是Google在2013年提出的一款开源工具,其是一个Deep Learning(深度学习)模型(实际上该模型层次较浅,严格上...

程序媛媛51
2016/11/23
0
0
Python中文文本处理库--SnowNLP

SnowNLP:一个处理中文文本的 Python 类库 简介 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文...

李宇飞
2014/07/12
5.8K
0

没有更多内容

加载失败,请刷新页面

加载更多

day96-20180923-英语流利阅读-待学习

英国王子也不看好人工智能,理由却和霍金不同 Daniel 2018-09-23 1.今日导读 2016 年 3 月 9 日至 15 日,世界围棋冠军李世石与谷歌研发的计算机围棋程序 AlphaGo 进行人机大战并以 1 比 4 ...

飞鱼说编程
17分钟前
0
0
今天在码云遇到一个很有意思的人 for Per.js

今天在码云遇到一个很有意思的人,他在我的Per.js项目下面评论了一句,大意为“你试试这句代码,看看速度到底是你快还是Vue快”【当然,这个评论被我手残不小心删掉了...】。 然后我就试了,...

Skyogo
21分钟前
21
0
Java -------- 首字母相关排序总结

Java 字符串数组首字母排序 字符串数组按首字母排序:(区分大小写) String[] strings = new String[]{"ba","aa","CC","Ba","DD","ee","dd"}; Arrays.sort(strings); for (int i ...

切切歆语
23分钟前
0
0
还在用 Git 的 -f 参数强推仓库,你这是在作死!

最近,美国一个程序员因为同事不写注释,代码不规范,最严重的是天天使用 git push -f 参数强行覆盖仓库,该程序员忍无可忍向四名同事开抢,其中一人情况危急!!! 不写注释、代码不规范是一...

红薯
37分钟前
312
0
NPM报错终极大法

所有的错误基本上都跟node的版本相关 直接删除系统中的node 重新安装 sudo rm -rf /usr/local/{bin/{node,npm},lib/node_modules/npm,lib/node,share/man/*/node.*} 重新安装 $ n lts$ npm...

lilugirl
41分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部