文档章节

分类(一):朴素贝叶斯文本分类

_
 _Roger_
发布于 2015/10/22 00:09
字数 578
阅读 913
收藏 0
点赞 0
评论 0

    

1、朴素贝叶斯假设

    为了处理这种维数过高的情况,我们做一个假设:X的每一维特征之间都是独立的。这也就是朴素贝叶斯假设。

根据独立分布的条件,我们就能够容易地写出P(d|C),如下:

        P(d/C) = ∏ P(ti / C)

    d代表文档,ti代表文档中的每个词,C代表类。


2、朴素贝叶斯分类器

    朴素贝叶斯分类器是一种有监督学习,常见有两种模型,多项式模型(multinomial model)和伯努利模型(Bernoulli model)。

先验概率在《信息检索导论》里面都是以类c下的文档数占比来衡量,而有些博客则以下面两种形式区分对待。

2.1、多项式模型

    在多项式模型中, 设某文档d=(t1,t2,…,tk),tk是该文档中出现过的单词,允许重复,则:

    1. 先验概率P(c)= 类c下单词总数/整个训练样本的单词总数。

    2. 类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|)。V是训练样本的单词表(即抽取单词,单词出现多次,只算一个),|V|则表示训练样本包含多少种单词。

    P(tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据,而P(c)则可以认为是类别c在整体上占多大比例(有多大可能性)。


2.2、伯努利模型

P(c)= 类c下文件总数/整个训练样本的文件总数

P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2)

类c下包含单词tk的文件数也就是说,一个文档中单词t出现多次但是只算作一次


二者的计算粒度不一样,多项式模型以单词为粒度,伯努利模型以文件为粒度,因此二者的先验概率和类条件概率的计算方法都不同。

© 著作权归作者所有

共有 人打赏支持
_
粉丝 29
博文 82
码字总数 39915
作品 0
武汉
数据挖掘系列-朴素贝叶斯分类算法原理与实践

一个简单的例子   朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下:   这个公式虽然看上去简单,但它却能总结历史,预知未来。公式...

xingfutianshi1018 ⋅ 03/27 ⋅ 0

统计学习方法 | 朴素贝叶斯法

01 分类方法 之前我们学习了一种分类方法——K近邻法(KNN),今天我们再学习一种更常用的分类方法 朴素贝叶斯法 这里,我们先区分一下“分类”和“聚类” 分类的目的是学会一个分类函数或分类...

邓莎 ⋅ 05/23 ⋅ 0

MADlib——基于SQL的数据挖掘解决方案(22)——分类之朴素贝叶斯

一、贝叶斯分类简介 1. 贝叶斯分类原理 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。贝叶斯分类是一种利用概率统计知识进行分类的算法,其分类原理...

wzy0623 ⋅ 03/06 ⋅ 0

ML梳理01 | 贝叶斯分类算法的前世今生

开篇.jpg 关键字:贝叶斯、概率、贝叶斯分类算法、应用 本文收集整理的相关知识点大多来自网络,如有不恰当之处,还望指正。 什么是概率? 什么是概率这个问题似乎人人都觉得自己知道,却有很...

RookieDay ⋅ 01/31 ⋅ 0

浅谈机器学习分类算法

目前随着人工智能的发展,机器学习的应用领域日益宽泛,各种机器学习适应不同的应用场景,而机器学习差别的关键点之一就在于所使用算法的不同,今天就为大家介绍 4 种主要的分类算法。 朴素贝...

又拍云 ⋅ 2017/12/19 ⋅ 0

算法-c#-朴素贝叶斯算法在文本分类中的应用

算法-c#-朴素贝叶斯算法在文本分类中的应用 一、朴素贝叶斯分类: 公式: P(C|X) = P(X|C)P(C)/P(X) 其中: P(C|X):后验概率 P(X|C):似然概率(条件概率) P(C):先验概率 P(X):联合概率 ...

xxj_jing ⋅ 03/15 ⋅ 0

朴素贝叶斯法----《统计学习方法》第四章

学习这一章,我们要弄懂几个名词,“朴素贝叶斯”,‘贝叶斯定理’,‘最大后验概率’,‘先验概率’,‘极大似然估计’。 (名词的解释放在文章最后) 朴素贝叶斯法的学习与分类 朴素贝叶斯...

zhouhong0284 ⋅ 03/12 ⋅ 0

实例 | 利用犯罪记录聚类和分类暴力行为(附步骤解析)

介绍 很高兴知道Data Science的应用超越了商业场景和企业盈利的目的。最近我有幸承担了全国安全社区网络的一项非盈利项目,使我能够亲身体验应用机器学习的方法来服务我们的社区。纽约州约翰...

技术小能手 ⋅ 06/07 ⋅ 0

Udacity机器学习入门笔记——2朴素贝叶斯-2

BayesRule 贝叶斯规则: holy grail of probabilistic inference ---that’scalled Bayes rule 概率论的 圣杯---贝叶斯规则 以一个癌症的例子进行解释cancer example: 假如有一种癌症,它发生...

xjj19901127 ⋅ 03/17 ⋅ 0

手把手教你在Python中实现文本分类(附代码、数据集)

文本分类是商业问题中常见的自然语言处理任务,目标是自动将文本文件分到一个或多个已定义好的类别中。文本分类的一些例子如下: 分析社交媒体中的大众情感 鉴别垃圾邮件和非垃圾邮件 自动标...

技术小能手 ⋅ 05/17 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Mahout推荐算法之SlopOne

一、 算法原理 有别于基于用户的协同过滤和基于item的协同过滤,SlopeOne采用简单的线性模型估计用户对item的评分。如下图,估计UserB对ItemJ的偏好 图(1) 在真实情况下,该方法有如下几个...

xiaomin0322 ⋅ 9分钟前 ⋅ 0

LVM讲解

LVM是什么 LVM是 Logical Volume Manager(逻辑卷管理)的简写,它是Linux环境下对磁盘分区进行管理的一种机制,Linux用户安装Linux操作系统时遇到的一个常见的难以决定的问题就是如何正确地...

李超小牛子 ⋅ 18分钟前 ⋅ 0

mysql更改密码、连接mysql、mysql常用命令

1. 更改mysql的root账户密码: mysql中root账户和系统root不是一个账户 1.1 更改环境变量PATH,增加mysql绝对路径 由于mysql安装目录为/usr/local/mysql/,所以系统不能直接使用mysql,需把/...

laoba ⋅ 20分钟前 ⋅ 0

阿里云发布企业数字化及上云外包平台服务:阿里云众包平台

摘要: 阿里云正式发布旗下众包平台业务(网址:https://zhongbao.aliyun.com/),支持包括:网站定制开发,APP、电商系统等软件开发,商标、商品LOGO、VI、产品包装设计、营销推广、大数据人...

猫耳m ⋅ 20分钟前 ⋅ 0

阿里云发布企业数字化及上云外包平台服务:阿里云众包平台

摘要: 阿里云正式发布旗下众包平台业务(网址:https://zhongbao.aliyun.com/),支持包括:网站定制开发,APP、电商系统等软件开发,商标、商品LOGO、VI、产品包装设计、营销推广、大数据人...

阿里云云栖社区 ⋅ 23分钟前 ⋅ 0

1.03-Maven中使用ueditor富文本编辑器

起因:在maven仓库未找到百度的ueditor的jar包 操作: 1.下载百度的ueditor的jar包 2.打开命令行,切换到ueditor的下载位置,运行一下命令: mvn install:install-file -Dfile=ueditor-1.1....

静以修身2025 ⋅ 29分钟前 ⋅ 0

几道Spring 面试题

1、BeanFactory 接口和 ApplicationContext 接口有什么区别? ApplicationContext 接口继承BeanFactory接口 Spring核心工厂是BeanFactory BeanFactory采取延迟加载,第一次getBean时才会初始...

职业搬砖20年 ⋅ 38分钟前 ⋅ 0

包饺子

http://storage.slide.news.sina.com.cn/slidenews/77_ori/2018_24/74766_826131_625489.gif

霜叶情 ⋅ 40分钟前 ⋅ 0

xml解析

方法一: String s_xml1 = "<xml>" + "<head>lalalalal</head>" + "<body>1234</body>" + "</xml>"; try { DocumentBuilderFactory documentBuilderFactory......

GithubXD ⋅ 52分钟前 ⋅ 0

reuse stream

Although Java streams were designed to be operated only once, programmers still ask how to reuse a stream. From a simple web search, we can find many posts with this same issue ......

idoz ⋅ 52分钟前 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部