文档章节

分类(一):朴素贝叶斯文本分类

_
 _Roger_
发布于 2015/10/22 00:09
字数 578
阅读 916
收藏 0

    

1、朴素贝叶斯假设

    为了处理这种维数过高的情况,我们做一个假设:X的每一维特征之间都是独立的。这也就是朴素贝叶斯假设。

根据独立分布的条件,我们就能够容易地写出P(d|C),如下:

        P(d/C) = ∏ P(ti / C)

    d代表文档,ti代表文档中的每个词,C代表类。


2、朴素贝叶斯分类器

    朴素贝叶斯分类器是一种有监督学习,常见有两种模型,多项式模型(multinomial model)和伯努利模型(Bernoulli model)。

先验概率在《信息检索导论》里面都是以类c下的文档数占比来衡量,而有些博客则以下面两种形式区分对待。

2.1、多项式模型

    在多项式模型中, 设某文档d=(t1,t2,…,tk),tk是该文档中出现过的单词,允许重复,则:

    1. 先验概率P(c)= 类c下单词总数/整个训练样本的单词总数。

    2. 类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|)。V是训练样本的单词表(即抽取单词,单词出现多次,只算一个),|V|则表示训练样本包含多少种单词。

    P(tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据,而P(c)则可以认为是类别c在整体上占多大比例(有多大可能性)。


2.2、伯努利模型

P(c)= 类c下文件总数/整个训练样本的文件总数

P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2)

类c下包含单词tk的文件数也就是说,一个文档中单词t出现多次但是只算作一次


二者的计算粒度不一样,多项式模型以单词为粒度,伯努利模型以文件为粒度,因此二者的先验概率和类条件概率的计算方法都不同。

© 著作权归作者所有

共有 人打赏支持
_
粉丝 29
博文 82
码字总数 39915
作品 0
武汉
【火炉炼AI】机器学习010-用朴素贝叶斯分类器解决多分类问题

【火炉炼AI】机器学习010-用朴素贝叶斯分类器解决多分类问题 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 前面讲到了使用逻辑回归分类器解...

炼丹老顽童
08/06
0
0
数据挖掘系列-朴素贝叶斯分类算法原理与实践

一个简单的例子   朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下:   这个公式虽然看上去简单,但它却能总结历史,预知未来。公式...

xingfutianshi1018
03/27
0
0
统计学习方法 | 朴素贝叶斯法

01 分类方法 之前我们学习了一种分类方法——K近邻法(KNN),今天我们再学习一种更常用的分类方法 朴素贝叶斯法 这里,我们先区分一下“分类”和“聚类” 分类的目的是学会一个分类函数或分类...

邓莎
05/23
0
0
MADlib——基于SQL的数据挖掘解决方案(22)——分类之朴素贝叶斯

一、贝叶斯分类简介 1. 贝叶斯分类原理 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。贝叶斯分类是一种利用概率统计知识进行分类的算法,其分类原理...

wzy0623
03/06
0
0
ML梳理01 | 贝叶斯分类算法的前世今生

开篇.jpg 关键字:贝叶斯、概率、贝叶斯分类算法、应用 本文收集整理的相关知识点大多来自网络,如有不恰当之处,还望指正。 什么是概率? 什么是概率这个问题似乎人人都觉得自己知道,却有很...

RookieDay
01/31
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

angular指令监听ng-repeat渲染完成后执行自定义事件方法

今天工作中遇到需要用到ng-repeat遍历渲染完后执行某个操作,angular本身并没有提供监听ng-repeat渲染完成的指令,所以需要自己创建自定义指令。 在ng-repeat模板实例内部会暴露出一些特殊属...

孟飞阳
42分钟前
1
0
URLEncoder和URLDecoder

public static void main(String[] args) { String str1 = "https://test1-life.pingan.com/ilifecore/productMall/loading.html?productId=8000000241&channelCode=XCX00001&productCode=00......

鬼才王
51分钟前
2
0
对象及变量的并发访问-第一篇

方法内部的变量为线程安全变量 “非线程安全”问题存在于“共享变量”中,如果是方法内部的私有变量,则不存在“非线程安全”问题,所得结果也就是“线程安全”的。 package chaprer3;/**...

简心
52分钟前
1
0
程序媛眼中的程序猿原来是这样子的!

一直都想写一篇关于描述程序员的文章,但是一直没能开头,一来因为文笔不好,更主要的原因是貌似对程序员既熟悉又不熟悉,很怕写出来的是以偏概全,给大家造成对程序员的既定印象,不过,管他...

Java小铺
今天
1
0
bean标签

声明:本栏目所使用的素材都是凯哥学堂VIP学员所写,学员有权匿名,对文章有最终解释权;凯哥学堂旨在促进VIP学员互相学习的基础上公开笔记。 bean标签 bean标签中的init-method属性,该属性...

凯哥学堂
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部