文档章节

中文文本分类

Galy_绿
 Galy_绿
发布于 2016/07/10 23:30
字数 458
阅读 81
收藏 1
点赞 0
评论 0

中文分词算法:基于概率图模型的条件机场(CRF)
文本或句子的结构化可分为:词向量空间模型、主题模型、依存句法的树表示、RDF的图表示

分词器 jieba 分词模式:默认切分、全切分、搜索引擎切分
分词的目的:文本实现了最基础的结构化
存储分词利用的数据结构:Bunch    


机器学习算法库:Scikit-Learn  //可以学习各种算法:http://scikit-learn.org/stable/
停用词    //下载 http://www.threedweb.cn/thread-1294-1-1.html
权重策略:TF-IDF 词频逆文档频率
词频(Term Frequency):某个给定的词语在该文件中出现的频率
逆向文件频率(Inverse Document Frequency,IDF):一个词语重要性的度量
算法参见书:

常见文本分类算法:kNN最近邻算法、朴素贝叶斯算法、向量机算法

训练步骤:分词-》生成文件词向量文件-》词向量模型

分来结果评估
三个基本指标:①召回率(也叫查全率)②准确率 ③F-Measure


朴素贝叶斯算法的基本原理和简单的Python实现
朴素贝叶斯分类:一种简单的分类算法(思想基础简单:即一个对象中特征向量种每个维度都是相互独立的)
朴素贝叶斯分类的正式定义:


kNN:向量间的距离衡量相似度来进行文本分类

文本分类:
    分词-》生成文件词向量文件-》词向量模型
                            生成词向量模型时需要加载训练词袋,将测试集产生的词向量映射到训练集词袋的词典中

 

//由于机器学习刚开始攻克所以先把简易的读书笔记进行罗列。后面熟悉了再来修正

© 著作权归作者所有

共有 人打赏支持
Galy_绿
粉丝 12
博文 132
码字总数 14908
作品 0
海淀
干货|免费文本语料训练数据集

关于Word2Vec,上篇文章文本分类特征提取之Word2Vec中已有还算详尽的叙述。简单总结下:word2vec是Google在2013年提出的一款开源工具,其是一个Deep Learning模型(实际上该模型层次较浅,严...

m0epnwstyk4 ⋅ 2017/12/18 ⋅ 0

自然语言处理(NLP)相关

ヾ(◍°∇°◍)ノ゙-参考 结巴分词使用 中文分词之结巴分词~~~附使用场景+demo(net) jieba分词、自定义词典提取高频词、词性标注及获取词的位置 jieba分词增加自定义词表 词性标注 [pytho...

致Great ⋅ 2017/12/11 ⋅ 0

构想:中文文本标注工具(内附多个开源文本标注工具)

自然语言处理的大部分任务是监督学习问题。序列标注问题如中文分词、命名实体识别,分类问题如关系识别、情感分析、意图分析等,均需要标注数据进行模型训练。深度学习大行其道的今天,基于深...

技术小能手 ⋅ 2017/11/17 ⋅ 0

中文文本分类对比(经典方法和CNN)

背景介绍 笔者实验室项目正好需要用到文本分类,作为NLP领域最经典的场景之一,文本分类积累了大量的技术实现方法,如果将是否使用深度学习技术作为标准来衡量,实现方法大致可以分成两类: ...

bupt_周小瑜 ⋅ 2017/12/31 ⋅ 0

Windows下使用Word2vec继续词向量训练

转载自:http://blog.csdn.net/heyongluoyao8/article/details/43488765 word2vec是Google在2013年提出的一款开源工具,其是一个Deep Learning(深度学习)模型(实际上该模型层次较浅,严格上...

程序媛媛51 ⋅ 2016/11/23 ⋅ 0

Python中文文本处理库--SnowNLP

SnowNLP:一个处理中文文本的 Python 类库 简介 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文...

李宇飞 ⋅ 2014/07/12 ⋅ 0

Spark MLlib实现的中文文本分类–Naive Bayes

中文分词 对于中文文本分类而言,需要先对文章进行分词,我使用的是IKAnalyzer中文分析工具,其中自己可以配置扩展词库来使分词结果更合理,我从搜狗、百度输入法下载了细胞词库,将其作为扩...

小萝卜_ ⋅ 2016/05/24 ⋅ 0

Android设置TextView行间距(非行高)

转载自:http://blog.csdn.net/aboutjunjun/article/details/9022379 标签: Androidtextview 2013-06-04 15:25 52886人阅读 评论(3) 收藏 举报 分类: Android_textview Android系统中TextV......

lv18092081172 ⋅ 2017/05/10 ⋅ 0

iOS:无侵入实现段落样式控制(解决富文本单行显示中文问题)

前言 在iOS开发中,文本格式(富文本)处理是一个比较麻烦的问题(我们姑且说它是麻烦的)。这里我提两点比较蛋疼的地方: 1、使用UILabel/UITextView的setText:方法,显示出来的文本行间距看...

indulge_in ⋅ 2017/08/17 ⋅ 0

6个最高效的语言处理Python库,你用过几个?

最近一段时间Python已经成为数据科学行业中大火的编程语言,今天技术学派收集了一些较为高效的语言处理Python库。下面分享给大家。 1.NLTK NLTK是构建Python程序以处理人类语言数据的领先平台...

Python燕大侠 ⋅ 06/05 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

vuex学习

1、getters基本用法: 在store.js里面用const声明我们的getters属性。 const getters={ count:function (state) { return state.count +=100; }} export default new Vuex.S......

大美琴 ⋅ 31分钟前 ⋅ 0

292. Nim Game - LeetCode

Question 292. Nim Game Solution 思路:试着列举一下,就能发现一个n只要不是4的倍数,就能赢。 n 是否能赢1 true2 true3 true4 false 不论删除几,对方都能一把赢5 t...

yysue ⋅ 43分钟前 ⋅ 0

G6 关系数据可视化图形库 简单使用

官网 https://antv.alipay.com/zh-cn/g6/1.x/index.html 效果 首先生成给定数目的小球,并设置随机的颜色 按照顺序,设置小球的角度以及坐标 设置定时器,每隔一定的时间修改小球的角度和坐标...

阿豪boy ⋅ 46分钟前 ⋅ 0

6.5 zip压缩工具 6.6 tar打包 6.7 打包并压缩

zip压缩工具 zip命令可以压缩目录和文件,-r 压缩目录。 zip使用方法 zip 1.txt.zip 1.txt //压缩文件 zip -r 123.zip 123/ //压缩目录 unzip 1.txt.zip //解压 unzip 123.zip -d /root/456...

Linux_老吴 ⋅ 54分钟前 ⋅ 0

react-loadable使用跳坑

官方给react-loadable的定义是: A higher order component for loading components with dynamic imports. 动态路由示例 withLoadable.js import React from 'react'import Loadable fro......

pengqinmm ⋅ 今天 ⋅ 0

记录工作中遇到的坑

1、ios safari浏览器向下滚动会触发window resize事件

端木遗风 ⋅ 今天 ⋅ 0

桥接设计模式

1、概述: 将抽象部分与他的实现部分分离,这样抽象化与实现化解耦,使他们可以独立的变化 如何实现解耦的呢,就是通过提供抽象化和实现化之间的桥接结构 桥接模式将继承模式转化成关联关系,他降...

职业搬砖20年 ⋅ 今天 ⋅ 0

20.zip压缩 tar打包 打包并压缩

6月25日任务 6.5 zip压缩工具 6.6 tar打包 6.7 打包并压缩 6.5 zip压缩工具: zip支持压缩目录 zip压缩完之后原来的文件不删除 不同的文件内容其实压缩的效果不一样 文件内有很多重复的用xz压...

王鑫linux ⋅ 今天 ⋅ 0

double类型数据保留四位小数的另一种思路

来源:透析公式处理,有时候数据有很长的小数位,有的时候由在四位以内,如果用一般的处理方法,那么不足四位的小树会补充0到第四位,这样子有点画蛇添足的感觉,不太好看。所以要根据小数的...

young_chen ⋅ 今天 ⋅ 0

Django配置163邮箱出现 authentication failed(535)错误解决方法

最近用Django写某网站,当配置163邮箱设置完成后,出现535错误即:smtplib.SMTPAuthenticationError: (535, b'Error: authentication failed') Django初始配置邮箱设置 EMAIL_HOST = "smtp.1...

陈墨轩_CJX ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部