文档章节

分类算法---朴素贝叶斯算法

满小茂
 满小茂
发布于 2017/07/14 00:25
字数 1323
阅读 171
收藏 1

1.数据特征类型    

朴素贝叶斯的算法根据数据的类型可以分为两类,一类是样本属性特征值是离散型,第二类是属性特征值为连续型,下面我会基于两类模型来介绍这个算法。

       1.属性是离散型,类的先验概率可以通过训练各类样本出现的次数来估计

       2.属性是连续型,有两种方法,将连续属性范围值划分为各个离散区间,这种方法不太好控制区间的大小,不太实用。第二种方法是,可以假设连续变量服从某种概率分布,然后使用训练数据估计分布的参数,高斯分布通常被用来表示连续属性的类条件概率分布。

        高斯分布有两个参数,均值和方差.

         均值计算公式

                                                  (公式1)

          方差计算公式

                                               (公式2)

        高斯分布概率密度函数 

                                               (公式3)

 

 2.贝叶斯公式原型

                   (公式4)

                  解释  d是每个X的属性个数,[x1,x2,x3,x4.....xd]每个属性,P(X)对于每个后验概率来说是固定不变的,所以,可以不计。

                  X实体属于Y分类的判断条件是根据Max[P(Yi|X)]来判断X实体属于哪个分类Y。

3.数据离散型贝叶斯使用例子

                    例子:概率模型:评分数据

评分数据

  物品1 物品2 物品3 物品4 物品5
Alice 1 3 3 2
用户1 2 4 2 2 4
用户2 1 3 3 5 1
用户3 4 5 2 3 3
用户4 1 1 5 2 1

根据用户1到用户4的用户数据,来预测Alice对物品5的评分,这里可以使用贝叶斯模型,分别计算Alice对物品5评分为1,2,3,4,5的概率,其中概率最大的,则是Alice对物品5评分的最大可能性。 

       P(物品5=1|Alice)=  P(Alice | 物品5=1) x P(物品5=1)  = P(物品1=1 | 物品5=1) * P(物品2=3 | 物品5=1)* P(物品3=3 | 物品5=1)*P(物品4=2 | 物品5=1) * P(物品5=1)

                = 1*1/2*1/2*1/2*1/2

       P(物品5=2|Alice)=  P(Alice | 物品5=2) x P(物品5=2)  = P(物品1=1 | 物品5=2) * P(物品2=3 | 物品5=2)* P(物品3=3 | 物品5=2)*P(物品4=2 | 物品5=2) * P(物品5=2)

               = 0*0*0*0*0

          ......................................

其他的物品以此类推,可以算出P(物品5=1|Alice)最大,则推测Alice用户对物品5的评分为1。

此例子是摘自《推荐系统》书中的一个例子

上面列子同理可用于文本分类模型中。用户看做文章,物品5评分看做文章的分类。同理可求出文章的所属的分类

 

4.数据连续型贝叶斯使用例子

      判断车厘子和樱桃

车厘子与樱桃的鲜红值/直径、质量信息例子

水果类型 鲜红值 直径 质量
车厘子 0.81 1.02 8.85
车厘子 0.82 0.98 8.67
车厘子 0.78 0.99 8.75
车厘子 0.79 1.01 8.80
樱桃 0.56 0.85 7.32
樱桃 0.58 0.86 7.33
樱桃 0.59 0.83 7.29
樱桃 0.57 0.84 7.31

根据上表的数据,预测下表未知实体是樱桃还是车厘子

水果类型 鲜红值 直径 质量
未知 0.80 0.86 8

 

假设训练样本的特征满足高斯分布,则使用上面的公式1,公式2计算出均值和方差

根据计算公式,需要求出两种类型的水果的各个属性的均值和方差,计算结果如下:

各个属性的均值和方差

类型 鲜红值-均值 鲜红值-方差 直径-均值 直径-方差 质量-均值 质量-方差
车厘子 0.8 0.018257419 1 0.018257419 8.7675 0.076757193
樱桃 0.575 0.012909944 0.845 0.012909944 7.3125 0.0170778251

预测未知实体是车厘子还是樱桃,需要计算未知实体的属于车厘子和属于樱桃的后验概率谁大。

p(车厘子|unkown)=P(车厘子)*p(鲜红值|车厘子)*p(直径|车厘子)*p(质量|车厘子) / evidence

p(樱桃|unkown)=P(樱桃)*p(鲜红值|樱桃)*p(直径|樱桃)*p(质量|樱桃) / evidence

 

默认 P(车厘子)P(樱桃)为1/2。evidence为常数,通常用来对各类的后验概率之和进行归一化。

evidence=P(车厘子)*p(鲜红值|车厘子)*p(直径|车厘子)*p(质量|车厘子)+P(樱桃)*p(鲜红值|樱桃)*p(直径|樱桃)*p(质量|樱桃);

概率密度求解

  p(鲜红值|樱桃)可通过 公式3 来计算,均值和方差,分别带入 樱桃鲜红值均值和方差,求出高斯分布概率密度,其他属性,以此类推。

最后根据计算结果来看,未知实体属于樱桃还是车厘子的概率大。

 

spark demo

https://github.com/apache/spark/tree/master/examples/src/main/java/org/apache/spark/examples

朴素贝叶斯Spark MLib实现

https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/ml/JavaNaiveBayesExample.java

© 著作权归作者所有

共有 人打赏支持
满小茂
粉丝 76
博文 120
码字总数 135036
作品 0
成都
程序员
私信 提问
统计学习方法 | 朴素贝叶斯法

01 分类方法 之前我们学习了一种分类方法——K近邻法(KNN),今天我们再学习一种更常用的分类方法 朴素贝叶斯法 这里,我们先区分一下“分类”和“聚类” 分类的目的是学会一个分类函数或分类...

邓莎
2018/05/23
0
0
【火炉炼AI】机器学习010-用朴素贝叶斯分类器解决多分类问题

【火炉炼AI】机器学习010-用朴素贝叶斯分类器解决多分类问题 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 前面讲到了使用逻辑回归分类器解...

炼丹老顽童
2018/08/06
0
0
MADlib——基于SQL的数据挖掘解决方案(22)——分类之朴素贝叶斯

一、贝叶斯分类简介 1. 贝叶斯分类原理 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。贝叶斯分类是一种利用概率统计知识进行分类的算法,其分类原理...

wzy0623
2018/03/06
0
0
ML梳理01 | 贝叶斯分类算法的前世今生

关键字:贝叶斯、概率、贝叶斯分类算法、应用 本文收集整理的相关知识点大多来自网络,如有不恰当之处,还望指正。 什么是概率? 什么是概率这个问题似乎人人都觉得自己知道,却有很难说明白...

RookieDay
2018/01/31
0
0
浅谈机器学习分类算法

目前随着人工智能的发展,机器学习的应用领域日益宽泛,各种机器学习适应不同的应用场景,而机器学习差别的关键点之一就在于所使用算法的不同,今天就为大家介绍 4 种主要的分类算法。 朴素贝...

又拍云
2017/12/19
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周三乱弹 —— 风扇写着先生请自爱

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @蚂蚁哈哈哈 :分享陈奕迅的单曲《落花流水》 《落花流水》- 陈奕迅 手机党少年们想听歌,请使劲儿戳(这里) @车谷 :我发现每天上班都好困 ...

小小编辑
今天
399
6
centos7重置密码、单用户模式、救援模式、ls命令、chmod命令

在工作当中如果我们错误的配置了文件使服务器不能正常启动或者忘记密码不能登录系统,如何解决这些问题呢?重装系统是可以实现的,但是往往不能轻易重装系统的,下面用忘记密码作为例子讲解如...

李超小牛子
今天
4
0
Python如何开发桌面应用程序?Python基础教程,第十三讲,图形界面

当使用桌面应用程序的时候,有没有那么一瞬间,想学习一下桌面应用程序开发?行业内专业的桌面应用程序开发一般是C++,C#来做,Java开发的也有,但是比较少。本节课会介绍Python的GUI(图形用...

程序员补给栈
今天
13
0
kafka在的使用

一、基本概念 介绍 Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能,但具有自己独特的设计。 这个独特的设计是什么样的呢? 首先让我们看几个基本的消息系统...

狼王黄师傅
今天
3
0
Android JNI总结

0x01 JNI介绍 JNI是Java Native Interface的缩写,JNI不是Android专有的东西,它是从Java继承而来,但是在Android中,JNI的作用和重要性大大增强。 JNI在Android中起着连接Java和C/C++层的作...

天王盖地虎626
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部