文档章节

分类(一):朴素贝叶斯文本分类

_
 _Roger_
发布于 2015/10/22 00:09
字数 578
阅读 956
收藏 0

#程序员薪资揭榜#你做程序员几年了?月薪多少?发量还在么?>>>

    

1、朴素贝叶斯假设

    为了处理这种维数过高的情况,我们做一个假设:X的每一维特征之间都是独立的。这也就是朴素贝叶斯假设。

根据独立分布的条件,我们就能够容易地写出P(d|C),如下:

        P(d/C) = ∏ P(ti / C)

    d代表文档,ti代表文档中的每个词,C代表类。


2、朴素贝叶斯分类器

    朴素贝叶斯分类器是一种有监督学习,常见有两种模型,多项式模型(multinomial model)和伯努利模型(Bernoulli model)。

先验概率在《信息检索导论》里面都是以类c下的文档数占比来衡量,而有些博客则以下面两种形式区分对待。

2.1、多项式模型

    在多项式模型中, 设某文档d=(t1,t2,…,tk),tk是该文档中出现过的单词,允许重复,则:

    1. 先验概率P(c)= 类c下单词总数/整个训练样本的单词总数。

    2. 类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|)。V是训练样本的单词表(即抽取单词,单词出现多次,只算一个),|V|则表示训练样本包含多少种单词。

    P(tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据,而P(c)则可以认为是类别c在整体上占多大比例(有多大可能性)。


2.2、伯努利模型

P(c)= 类c下文件总数/整个训练样本的文件总数

P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2)

类c下包含单词tk的文件数也就是说,一个文档中单词t出现多次但是只算作一次


二者的计算粒度不一样,多项式模型以单词为粒度,伯努利模型以文件为粒度,因此二者的先验概率和类条件概率的计算方法都不同。

© 著作权归作者所有

上一篇: 特征选择
_
粉丝 31
博文 82
码字总数 39915
作品 0
武汉
私信 提问
加载中

评论(0)

一步步教你轻松学朴素贝叶斯模型算法Sklearn深度篇3

一步步教你轻松学朴素贝叶斯深度篇3 (白宁超 2018年9月4日14:18:14) 导读:朴素贝叶斯模型是机器学习常用的模型算法之一,其在文本分类方面简单易行,且取得不错的分类效果。所以很受欢迎,对...

osc_nmvhliqx
2018/09/04
5
0
Python机器学习笔记:朴素贝叶斯算法

  朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。比如决策树...

osc_es532h90
2019/05/18
20
0
秒懂机器学习---朴素贝叶斯模型:文本分类+垃圾邮件分类

秒懂机器学习---朴素贝叶斯模型:文本分类+垃圾邮件分类 一、总结 一句话总结: 做分类:朴素贝叶斯主要用作分类,无论是判断是否,还是做多个分类,都比较方便和简单 理解公式:p(Ci | x,y)...

osc_u94h44ck
2019/06/06
33
0
基于Naive Bayes算法的文本分类

理论 什么是朴素贝叶斯算法? 朴素贝叶斯分类器是一种基于贝叶斯定理的弱分类器,所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。举个例子,如果一种水果其具有红,圆,直径大概...

osc_q9huomuf
2018/07/07
2
0
朴素贝叶斯算法——实现新闻分类(Sklearn实现)

1、朴素贝叶斯实现新闻分类的步骤 (1)提供文本文件,即数据集下载 (2)准备数据 将数据集划分为训练集和测试集;使用jieba模块进行分词,词频统计,停用词过滤,文本特征提取,将文本数据...

osc_y8k7fox4
2018/08/04
3
0

没有更多内容

加载失败,请刷新页面

加载更多

PHP实战之文件上传与下载

目录 1. 前言 2.代码实战 2.1客户端页面配置说明 2.2 $_FILES预定义变量解析 2.3文件的移动方式 2.3.1第一种移动形式 2.3.2第二种移动形式 2.4文件上传配置及解析 2.5 错误信息说明 3. 文件上...

六道木
今天
36
0
rebar3 的使用

安装 $ git clone https://github.com/erlang/rebar3.git$ cd rebar3$ ./bootstrap $ ./rebar3 local install===> Extracting rebar3 libs to ~/.cache/rebar3/lib...===> Writi......

SummerGao
今天
20
0
聊聊nifi的AbstractBinlogTableEventWriter

序 本文主要研究一下nifi的AbstractBinlogTableEventWriter AbstractBinlogTableEventWriter nifi-1.11.4/nifi-nar-bundles/nifi-cdc/nifi-cdc-mysql-bundle/nifi-cdc-mysql-processors/src......

go4it
今天
18
0
如何解决Git中的合并冲突 - How to resolve merge conflicts in Git

问题: 如何解决Git中的合并冲突? 解决方案: 参考一: https://stackoom.com/question/g5t/如何解决Git中的合并冲突 参考二: https://oldbug.net/q/g5t/How-to-resolve-merge-conflicts-...

fyin1314
今天
23
0
最常用的linux命令

查看磁盘挂载情况: df -h 查看当前目录下每个文件夹的大小 du -lh --max-depth=1 清空特定文件root >root 查看安装的linux发型版本 cat /proc/version *******lsb_release -a uname --m 查看...

fairy1674
今天
22
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部