文档章节

分类算法---朴素贝叶斯算法

满小茂
 满小茂
发布于 2017/07/14 00:25
字数 1323
阅读 156
收藏 1

1.数据特征类型    

朴素贝叶斯的算法根据数据的类型可以分为两类,一类是样本属性特征值是离散型,第二类是属性特征值为连续型,下面我会基于两类模型来介绍这个算法。

       1.属性是离散型,类的先验概率可以通过训练各类样本出现的次数来估计

       2.属性是连续型,有两种方法,将连续属性范围值划分为各个离散区间,这种方法不太好控制区间的大小,不太实用。第二种方法是,可以假设连续变量服从某种概率分布,然后使用训练数据估计分布的参数,高斯分布通常被用来表示连续属性的类条件概率分布。

        高斯分布有两个参数,均值和方差.

         均值计算公式

                                                  (公式1)

          方差计算公式

                                               (公式2)

        高斯分布概率密度函数 

                                               (公式3)

 

 2.贝叶斯公式原型

                   (公式4)

                  解释  d是每个X的属性个数,[x1,x2,x3,x4.....xd]每个属性,P(X)对于每个后验概率来说是固定不变的,所以,可以不计。

                  X实体属于Y分类的判断条件是根据Max[P(Yi|X)]来判断X实体属于哪个分类Y。

3.数据离散型贝叶斯使用例子

                    例子:概率模型:评分数据

评分数据

  物品1 物品2 物品3 物品4 物品5
Alice 1 3 3 2
用户1 2 4 2 2 4
用户2 1 3 3 5 1
用户3 4 5 2 3 3
用户4 1 1 5 2 1

根据用户1到用户4的用户数据,来预测Alice对物品5的评分,这里可以使用贝叶斯模型,分别计算Alice对物品5评分为1,2,3,4,5的概率,其中概率最大的,则是Alice对物品5评分的最大可能性。 

       P(物品5=1|Alice)=  P(Alice | 物品5=1) x P(物品5=1)  = P(物品1=1 | 物品5=1) * P(物品2=3 | 物品5=1)* P(物品3=3 | 物品5=1)*P(物品4=2 | 物品5=1) * P(物品5=1)

                = 1*1/2*1/2*1/2*1/2

       P(物品5=2|Alice)=  P(Alice | 物品5=2) x P(物品5=2)  = P(物品1=1 | 物品5=2) * P(物品2=3 | 物品5=2)* P(物品3=3 | 物品5=2)*P(物品4=2 | 物品5=2) * P(物品5=2)

               = 0*0*0*0*0

          ......................................

其他的物品以此类推,可以算出P(物品5=1|Alice)最大,则推测Alice用户对物品5的评分为1。

此例子是摘自《推荐系统》书中的一个例子

上面列子同理可用于文本分类模型中。用户看做文章,物品5评分看做文章的分类。同理可求出文章的所属的分类

 

4.数据连续型贝叶斯使用例子

      判断车厘子和樱桃

车厘子与樱桃的鲜红值/直径、质量信息例子

水果类型 鲜红值 直径 质量
车厘子 0.81 1.02 8.85
车厘子 0.82 0.98 8.67
车厘子 0.78 0.99 8.75
车厘子 0.79 1.01 8.80
樱桃 0.56 0.85 7.32
樱桃 0.58 0.86 7.33
樱桃 0.59 0.83 7.29
樱桃 0.57 0.84 7.31

根据上表的数据,预测下表未知实体是樱桃还是车厘子

水果类型 鲜红值 直径 质量
未知 0.80 0.86 8

 

假设训练样本的特征满足高斯分布,则使用上面的公式1,公式2计算出均值和方差

根据计算公式,需要求出两种类型的水果的各个属性的均值和方差,计算结果如下:

各个属性的均值和方差

类型 鲜红值-均值 鲜红值-方差 直径-均值 直径-方差 质量-均值 质量-方差
车厘子 0.8 0.018257419 1 0.018257419 8.7675 0.076757193
樱桃 0.575 0.012909944 0.845 0.012909944 7.3125 0.0170778251

预测未知实体是车厘子还是樱桃,需要计算未知实体的属于车厘子和属于樱桃的后验概率谁大。

p(车厘子|unkown)=P(车厘子)*p(鲜红值|车厘子)*p(直径|车厘子)*p(质量|车厘子) / evidence

p(樱桃|unkown)=P(樱桃)*p(鲜红值|樱桃)*p(直径|樱桃)*p(质量|樱桃) / evidence

 

默认 P(车厘子)P(樱桃)为1/2。evidence为常数,通常用来对各类的后验概率之和进行归一化。

evidence=P(车厘子)*p(鲜红值|车厘子)*p(直径|车厘子)*p(质量|车厘子)+P(樱桃)*p(鲜红值|樱桃)*p(直径|樱桃)*p(质量|樱桃);

概率密度求解

  p(鲜红值|樱桃)可通过 公式3 来计算,均值和方差,分别带入 樱桃鲜红值均值和方差,求出高斯分布概率密度,其他属性,以此类推。

最后根据计算结果来看,未知实体属于樱桃还是车厘子的概率大。

 

spark demo

https://github.com/apache/spark/tree/master/examples/src/main/java/org/apache/spark/examples

朴素贝叶斯Spark MLib实现

https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/ml/JavaNaiveBayesExample.java

© 著作权归作者所有

共有 人打赏支持
满小茂
粉丝 75
博文 119
码字总数 131884
作品 0
成都
程序员
私信 提问
统计学习方法 | 朴素贝叶斯法

01 分类方法 之前我们学习了一种分类方法——K近邻法(KNN),今天我们再学习一种更常用的分类方法 朴素贝叶斯法 这里,我们先区分一下“分类”和“聚类” 分类的目的是学会一个分类函数或分类...

邓莎
05/23
0
0
【火炉炼AI】机器学习010-用朴素贝叶斯分类器解决多分类问题

【火炉炼AI】机器学习010-用朴素贝叶斯分类器解决多分类问题 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 前面讲到了使用逻辑回归分类器解...

炼丹老顽童
08/06
0
0
MADlib——基于SQL的数据挖掘解决方案(22)——分类之朴素贝叶斯

一、贝叶斯分类简介 1. 贝叶斯分类原理 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。贝叶斯分类是一种利用概率统计知识进行分类的算法,其分类原理...

wzy0623
03/06
0
0
ML梳理01 | 贝叶斯分类算法的前世今生

关键字:贝叶斯、概率、贝叶斯分类算法、应用 本文收集整理的相关知识点大多来自网络,如有不恰当之处,还望指正。 什么是概率? 什么是概率这个问题似乎人人都觉得自己知道,却有很难说明白...

RookieDay
01/31
0
0
《机器学习》-- 贝叶斯分类器

前 言 如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,还是自身充电,跟上潮流,我觉得都值得试一试。对于自己...

机器学习算法工程师
05/14
0
0

没有更多内容

加载失败,请刷新页面

加载更多

linux-scp 远程拷贝报错原因

刚拿到一台重装后的服务器,远程ssh都正常,但是一scp拷贝东西就报错: 本地确定是有scp命令的,而且如果是本地没有scp不会报后面那句lost connection,因此就是远程没有scp这个命令。因此在...

linuxprobe16
6分钟前
0
0
OSChina 周六乱弹 —— 谁小时候没当过熊孩子呀

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @小小编辑:推荐歌曲《行尸走肉》- amazarashi 《行尸走肉》- amazarashi 手机党少年们想听歌,请使劲儿戳(这里) @神话 :周五了,周末干啥...

小小编辑
31分钟前
18
1
docker部署springboot项目

安装docker 菜鸟教程 springboot项目 maven依赖 <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001......

yimingkeji
今天
14
0
1: Cordova 配置WebView可以打开外部链接

一、问题:在使用Cordova生成的Android App中默认情况下WebView中的超链接,如果不是相对链接,会默认使用浏览器打开。 如果想用默认webview打开 解决方案:修改config.xml文件添加链接配置节...

wecloudnet
今天
1
0
Beetl介绍以及集成SpringBoot2.0 ---《Beetl视频课程》(1)

目的:引导阅读官方文档 目标:实现一个自己的博客 一、Beetl介绍 Beetl目前版本是2.9.3,相对于其他java模板引擎,具有功能齐全,语法直观,性能超高,以及编写的模板容易维护等特点。使得开发...

Gavin-King
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部