概率论整理

原创
2021/05/07 00:59
阅读数 3.7K

随机事件的基本概念

我们来看三个事件

  1. 太阳东升西落。
  2. 在十字路口遇到红绿灯的颜色。
  3. 一男一女牵手后在一起的时间。

首先,我们可以肯定的是太阳东升西落是肯定会发生的,我们称为确定现象。而在十字路口遇到红绿灯的颜色可能是红色,可能是绿色,可能是黄色,这个是不确定的,我们称之为随机现象。对随机现象做的一次实验,我们称为随机实验。虽然在十字路口会遇到什么颜色的灯,我们不知道,但是所有的结果,我们是可以预见的(红、绿、黄),这又表现出了一定的确定性,而且这种实验,我们是可以重复的。而一男一女牵手后在一起的时间也是一个随机现象,他们可能马上就分手,也有可能一生一世。

随机事件及样本空间

随机试验的所有可能结果组成的集合称为样本空间。记为E,集合的每个元素称为一个样本点。样本点可以是有限个或无穷多个,可以是离散值或连续值。

样本空间子集成为随机事件,简称事件(事件本质就是集合)。几种特殊的子集:

  1. 一个元素组成的集合,称为基本事件
  2. 样本空间本身,即全集E,称为必然事件
  3. 空集ø称为不可能事件

则在十字路口遇到红绿灯的颜色的样本空间E1=[红,绿,黄],而其中的元素即为各个样本点e1=红、e2=绿、e3=黄。一男一女牵手后在一起的时间的样本空间E2=[0,+∞),但它的样本点是不可罗列的。所以红绿灯事件的样本点是离散的,有3个样本点;而牵手后在一起的时间是连续的,它的样本点是无穷的。

我们再来看一下如果顺利通过红绿灯的事件,就是样本空间E1的一个子集A=[绿,黄],A∈E1,如果无法通过红绿灯的事件,也是样本空间E1的一个子集B=[红],B∈E1,并且该事件为一个基本事件;如果两个人在一起至少5年时间,那么这个子集C=[5,+∞),C∈E2。

  • 例题,描述如下三个随机试验的样本空间。
  1. E1,将一枚骰子投掷一次,记录点数可能的结果。
  2. E2,将一枚硬币同时抛掷两次,记录前后每次正反面出现可能结果。
  3. E3,测量一批灯泡寿命,记录可能的结果。

这里很明显E1=[1,2,3,4,5,6],E2=[(正,正),(正,反),(反,正),(反,反)],E3=[0,+∞)

从E2我们可以看出,样本点可以是一维的,也可以是二维甚至高维的

  • 描述E2随机试验中的以下事件。
  1. 事件A1="第一次出现正面"
  2. 事件A2="恰好出现一次正面"
  3. 事件A3="至少出现一次正面"

这里A1=[(正,正),(正,反)];A2=[(正,反),(反,正)];A3=[(正,正),(正,反),(反,正)]

事件的基本运算

之前我们说了事件的本质是集合,现在我们来看一个例子:

小王与小白结婚,家人和朋友送的礼物如下

称谓 赠予礼物
小王父母 1W现金,一对金镯子
小白父母 1W现金
朋友小刘 支付宝转账600元
朋友小韩 500元现金+泰迪狗一只
朋友小金 台式计算机一台
朋友小花 价值500元SPA券一张
朋友小张 200元现金+200元游戏点卡一张

这里我们可以把这些事件进行一下划分

  1. 事件A表示送钱的人:A=[小王父母,小白父母,朋友小刘,朋友小韩,朋友小张]
  2. 事件B表示送实物的人:B=[小王父母,朋友小韩,朋友小金]
  3. 事件C表示送虚拟物品的人:C=[朋友小花,朋友小张]
  • 现在我们来看一下送钱或送实物的人该怎么表示事件?

事件A和事件B的并集,A  B=[小王父母,小白父母,朋友小刘,朋友小韩,朋友小张,朋友小金]

  • 送钱且送实物的人该怎么表示事件?

事件A和事件B的交集,A  B=[小王父母,朋友小韩]

  • 送了钱没送实物的人该怎么表示事件?‘

事件A与事件B的差集,A-B=[小白父母,朋友小刘,朋友小张]

事件的基本运算(韦恩图法,用集合表示事件)

因事件本质是集合,即把事件的相关关系转化为集合的相关关系

  1. 事件包含(集合包含):事件A发生必导致事件B发生,则称事件B包含事件A;事件包含即集合包含。若AB事件相互包含,则称AB事件相等,事件相等即集合相等。
  2. 和事件(并集):指事件A或事件B发生,即AB事件至少一个发生。A  B
  3. 积事件(交集):事件A且事件B都发生。A  B或者AB
  4. 差事件(差集):事件A发生且事件B不发生,则称事件差集A-B,
  5. 互斥事件(互不相容事件):指AB不可能同时发生,即A  B=ø
  6. 对立事件(互逆事件):事件A与事件B必然且只发生一个,即A  B=ø且A+B=U(全集,即必然事件,对立一定互斥,互斥不一定对立)

事件运算性质(即集合运算性质)

交换律:

结合律:

分配律:

对偶律:

互补律:

  • 例:箱子里有4个白球,6个红球。采用不放回抽样,依次记录两次抽到的结果。设事件A={第一次抽到白球},事件B={第二次抽到红球}。求A+B,AB,A-B。

A+B=[(白,白),(白,红),(红,红)]

AB=[(白,红)]

A-B=A=[(白,白)]

  • 例:设某人连续射击3次,设事件Ai={第i次击中目标},用事件运算表示如下事件
  1. 没有击中目标
  2. 恰好有一次击中目标
  3. 至少有一次击中目标

这里我们用A1表示第1次击中事件,A2表示第2次击中事件,A3表示第3次击中事件。

第3种情况中,第一个括号中是中一次的,第二个括号是中两次的,第三部分是中三次的。

以小王、小白结婚为例,我们来看一下Python代码

if __name__ == "__main__":

    A = {"小王父母", "小白父母", "朋友小刘", "朋友小韩", "朋友小张"}
    B = {"小王父母", "朋友小韩", "朋友小金"}
    C = {"朋友小花", "朋友小张"}
    print(A | B)
    print(A & B)
    print(A - B)

运行结果

{'小王父母', '朋友小刘', '小白父母', '朋友小金', '朋友小韩', '朋友小张'}
{'小王父母', '朋友小韩'}
{'朋友小张', '朋友小刘', '小白父母'}

古典概型

小王和小白婚后进行蜜月之旅,他们想从A城到B城,可以坐火车、汽车、轮船。一天中,火车3班,汽车2班,轮船1班,那么他俩从A城到B城共有多少种走法?第二天他们又计划去C城,从B城到C城可以坐火车或汽车,火车一天3班,汽车一天2班,他俩从A城到C城共有多少种不同走法?

A->B(或)    一共是3+2+1=6种走法

B->C(或)    一共是3+2=5种走法

A->B->C(且)    一共是6*5=30种走法

分类计数原理(加法原理):完成一件事情,有n类办法,第1类有m1种方法,第2类有m2种方法......第n类有mn种方法。那么完成此事共N=m1+m2+....+mn种方法。加法原理是或者关系,即n类办法选一种即可完成此事。

分布计数原理(乘法原理):完成一件事情,总共需要n步,第1步m1种方法,第2步m2种方法......第n步mn种方法。那么完成此时共N=m1*m2*....*mn种方法。乘法原理是并且关系,即n步都要完成才能完成此事。

排列数与组合数

  1. 组合数:从n个元素中取出m个元素,即完成此事,称作n个元素中取出m个元素一个组合,其组合数为
  2. 排列数:从n个元素中取出m个元素,再顺便排个序,才算完事,称作n个元素中取出m个元素一个排列,其排列数为

排列数和组合数的根本区别是,一个取出来就完事(不用排序),一个取出来还要排序,根据分步计数原理,

小王和老婆小白通过抽牌来决定谁洗盘子,小王让老婆从方片1-10这10张牌中任意抽取一张,如果牌号是奇数,则老婆洗盘子;如果牌号是偶数,则小王洗盘子;这么做公平吗?

我们把小白洗盘子的事件定义为A=[1,3,5,7,9];小王洗盘子的事件定义为B=[2,4,6,8,10];样本空间E=[1,2,3,4,5,6,7,8,9,10]

小白洗盘子的几率=5/10=1/2,小王洗盘子的几率=5/10=1/2。可以像这样子计算概率的方式,我们称为古典概型。

古典概型模型(简称古典概型)的两个特点

  1. 样本空间中的元素只有有限个
  2. 试验中每个样本点(基本事件)是等可能发生的。

对于古典概型,设样本空间包含n个样本,事件A包含k个样本点,则事件A发生的概率为

古典概型有两个经典模型:无放回抽样模型有放回抽样模型

  • 例:袋中有4只白球和2只红球(不放回抽样),从袋中摸球两次,每次任取一球,求:两球都是白球的概率,求两球一红一白的概率。

这道题满足古典概型的有限个和等可能。

摸球两次是从6个球里取2个,所以方法总数为=6*5/2=15种

事件A表示两次都是白球,A的样本点数为=4*3/2=6种

则P(A)=/=6/15=2/5

事件B表示一红一白,B的样本点数为=4*2=8种

则P(B)=/=8/15

from scipy.special import comb

if __name__ == "__main__":

    PA = comb(4, 2) / comb(6, 2)
    print(PA)
    PB = comb(4, 1) * comb(2, 1) / comb(6, 2)
    print(PB)

运行结果

0.4
0.5333333333333333
  • 例:袋中有4只白球和2只红球(放回抽样),从袋中摸球两次,每次任取一球,求:两球都是白球的概率,求两球一红一白的概率。

摸球两次,有放回,所以方法总数为=6*6=36种

事件A表示两次都是白球,有放回,A的样本点数为=4*4=16

则P(A)=()/()=16/36=4/9

事件B表示一红一白,有放回,B的样本点数为+=8+8=16

则P(B)=(+)/()=16/36=4/9

from scipy.special import comb

if __name__ == "__main__":

    PA = (comb(4, 1) * comb(4, 1)) / (comb(6, 1) * comb(6, 1))
    print(PA)
    PB = (comb(4, 1) * comb(2, 1) + comb(2, 1) * comb(4, 1)) / (comb(6, 1) * comb(6, 1))
    print(PB)

运行结果

0.4444444444444444
0.4444444444444444

几何概型

小白发现小王经常跟朋友在外面吃吃喝喝,于是怀疑小王藏了私房钱,于是喊了闺蜜小红来一起找私房钱。

小白负责找主卧10平,小红负责找客厅30平,问谁找到私房钱的几率更大?很明显小红找到私房钱的概率更大为30/40=3/4,而小白找到私房钱的概率为10/40=1/4,虽然这里的样本点有无穷多个(房间内有无数个点,每个点都是等可能藏有私房钱的),但像这样的计算方式,我们称为几何概型。

几何概型的特点

等可能概型的两个特点:

  1. 样本空间的样本点有无穷多个
  2. 试验中每个样本点(基本事件)是等可能发生的。

具备这两个特点的模型为几何概型。

L(A)是事件A子区域的度量,L(Ω)是样本空间的度量,度量可以是长度(1维度量),面积(2维度量),体积(3维度量)等。

古典概型和几何概型比较

  古典概型 几何概型
样本(基本事件)个数 有限个 无限个
每个样本出现可能性 等可能 等可能
概率公式 A包含基本事件个数/基本事件总数 构成事件A的测度(长度、面积、体积等)/样本空间测度
  • 例(长度型):在[-1,2]上随机取一个数x,则x属于[0,2]的概率为多少?

设事件A表示x落入[0,2]区间,由此可知,此题为几何概型(无穷个,等可能)

事件A长度度量为2-0=2,

样本空间长度度量为2-(-1)=3

事件A发生概率P(A)=2/3

  • 例(面积型):某运动会上,铁饼项目运动员向一矩形区域进行扔铁饼训练,该矩形长6米宽4米,铁饼是半径为1米的圆,则该运动员总能将铁饼扔进矩形区域的概率为多少?

由题意知,此模型为几何概型

样本空间面积度量为6*4=24

设事件A表示铁饼扔进矩形区域

通过上图,我们发现,铁饼的圆心刚好在红色矩形内,铁饼才能落入训练的矩形区域。则事件A对应面积度量为:2*4=8

则事件A发生概率P(A)=8/24=1/3

  • 例(体积型):在一杯500ml水中,有一个未繁殖的病毒,舀一瓢水(约30ml),求所舀的水中含有该病毒的概率?

由题可知,此模型为几何概型

所求概率为30/500=3/50

  • 例(多维型):小王与某朋友约定今天下午2点至3点在咖啡厅见面,并约定先到者等候另一人一刻钟,超过时间就走人,求两人能见面的概率。

设小王是2点x分到达,他朋友是2点y分到达。

设事件A表示两人能见面,现在我们要求的是在红色图形区域内,A=[|x-y|≤15],其中0≤x≤60,0≤y≤60

则(x,y)的点要落入红色区域内,两人才能见面,所以事件A的概率P(A)=(60*60-45*45*2/2)/(60*60)=7/16,这里分子为矩形面积减去两个三角形的面积,分母为矩形面积。

概率的公理化定义

之前我们讲的无论是古典概型还是几何概型,它们每个样本出现的可能性都是等可能的,用这两种概型来定义概率是不够全面的,不可能所有随机事件都是等可能的。

一天晚上,小王和他的朋友小张一起喝啤酒,通过抛硬币来决定谁喝,如果硬币正面朝上,就小王喝,反之则小张喝。他们一共喝了8瓶啤酒,小王喝了7瓶,而小张只喝了1瓶。小王很纳闷,抛硬币正反面出现的概率应该是一样的,两个人差不多应该都喝4瓶左右,为什么会相差这么悬殊呢?这是小王混淆了频率概率的概念。

在相同条件下,共进行了n次试验,事件A发生的次数nA,称为nA的频数,nA/n称为事件A发生的频率。随着n逐渐增大,频率nA/n逐渐稳定在某一个数值p,则数值p称为事件A在该条件下发生的概率。

频率特点:

  1. 非负性:
  2. 规范性:(所有事件的频率和为1)
  3. 有限可加性:(所有事件是互斥的,比如抛硬币,要么正面,要么反面)

历史上数学家所做的抛硬币实验数据

该定义难以计算,事件随机性强,求无穷下极限所得概率是很困难的。

概率的公理化定义

定义:设S是样本空间,E是随机试验,对于E的每个事件A对应一个实数P(A),称为事件A的概率,其中集合函数P()满足下列条件

  1. P(A)≥0;(非负性)
  2. P(S)=1;(规范性)
  3. 设A1,A2......是两两互不相容的事件,则有P(A1 ∪ A2 ∪ ...)=P(A1)+P(A2)+....(可列可加性)

概率性质(集合思想)

  1. (非负性与规范性)有P(A)≥0,P(E)=1
  2. (有限可加性)A1,A2,....两两互不相容P(A1 ∪ A2 ∪ ...)=P(A1)+P(A2)+....,更一般的,(这里A、B不互斥),(这里A、B、C不互斥)
  3. (差集),特别的,若,则有,故
  4. (对偶性)(德摩根定律)
  • 例(根据概率性质解答相关问题):设P(A)=0.3;P(B)=0.4,P(AB)=0.2,求下列事件概率

解:1,==1-0.2=0.8

2,==0.4-0.2=0.2

3,==(1-0.3)+0.4-0.2=0.9

4,=1-P(AB)=1-0.2=0.8

条件概率

小王跟小白在拍拖前,小白给小王出了几道题,并说如果小王答对了这几道题,就跟小王拍拖。其中有一道题为:我(小白)最喜欢的颜色是?有3个选项

  1. 蓝色
  2. 绿色
  3. 粉红(正确答案)

小王对这道题没底,小白也看了出来,并说,我给你去掉一个选项,于是就去掉了蓝色,现在备选答案为绿色和粉红。最终小王选择了正确的粉红。

我们从数学的角度来看这个问题,在未去掉蓝色前,样本空间E=[蓝色,绿色,粉红],设事件A为小王答对,则A=[粉红],则小王答对的概率为一个古典概型。p(A)=N(A)/N(E)=1/3,这里N表示样本点数。

在去掉蓝色后,设事件B为表示已知蓝色为排除选项,B=[绿色,粉红],则p(A)=N(A)/N(B)=1/2。由于在去掉蓝色前后,小王答对问题的概率都用p(A)来表示,容易让你混淆,所以在小白提示的条件下,小王答对的概率为在事件B已经发生的条件下,事件A发生的概率记为p(A|B)=N(A)/N(B)=1/2。像这种一个事件发生的条件下,另一个事件发生的概率,我们称之为条件概率。而未去掉蓝色前,事件A的概率,我们称为普通概率

而我们怎么来求这个条件概率呢?我们叫这个为缩小样本空间法,p(A)=N(A)/N(E)到p(A|B)=N(A)/N(B),样本空间缩小了。由于A事件发生了,表示B事件肯定发生了,所以p(A|B)=N(A)/N(B)=N(AB)/N(B),这里A<=>AB。

我们可以由p(A|B)=N(AB)/N(B),分子分母同时除以N(E),p(A|B)=(N(AB)/N(E))/(N(B)/N(E))=p(AB)/p(B),我们称之为公式法。现在我们再来看一下使用公式法怎么求小王选出正确答案的概率p(A|B)。这里P(AB)=p(A)=1/3,p(B)=N(B)/N(E)=2/3,则p(A|B)=p(AB)/p(B)=(1/3)/(2/3)=1/2。

条件概率定义公式

定义:A、B为两个事件,P(A)>0,称P(B|A)=P(AB)/P(A)为事件A发生条件下事件B发生的条件概率。

P(A|U)=P(A),所以平时说的(无条件)概率,是条件概率特殊情况。这里U是全集样本空间。

条件概率是概率的推广,既然也是概率,条件概率具备概率的所有性质。

条件概率求法:

  1. 缩减样本空间法
  2. 公式法

乘法公式:由条件概率公式可得乘法公式P(AB)=P(A)P(B|A)

  • 例:有6个大小形状完全相同的小球,4白2红,不放回地依次取出2个,问在第一次取到红球前提下,第2次取到白球概率。

缩小样本空间法

设事件A表示第一次取到红球,A=[4白,1红]

设事件B表示第二次取到白球,B=[4白],则P(B|A)=4/(4+1)=4/5

公式法:

P(B|A)=P(AB)/P(A)=(/)/(/)=(8/30)/(10/30)=4/5

全概率公式

小王开了一家小保险公司,小王搞到了2张球赛入场券,想发给5个元老级员工。大家都想去,于是采用抽签决定,你觉得公平吗?

设事件A表示第1人抽中P(A)=2/5;设事件B表示第2人抽中,我们来看一下第2个人的抽中的概率是否跟第1个人相同。

首先根据在之前古典概型中讲的分步计数原则,假设第1人抽中,第2人也抽中,概率则为P(AB);假设第1人没抽中,第2人抽中,概率为P(B)。同时这两种情况又属于分类计数,所以P(B)=P(AB)+P(B),根据条件概率公式P(B|A)=P(AB)/P(A)推导的P(AB)=P(A)P(B|A)可得,P(B)=P(A)P(B|A)+P()P(B|),该式子更能体现分步计数的概念,在第一步中与没中的情况下,第二步中的条件概率。第一个人中了,还剩4张,则P(B|A)=1/4;第一个人没中,还剩4张,则P(B|)=2/4=1/2.

P(B)=P(A)P(B|A)+P()P(B|)=(2/5)*(1/4)+(1-2/5)*(1/2)=2/5。由这个推断结果,说明了抽签结果的概率跟顺序没有关系。

我们将这2种情况推广到多种情况。

全概率公式

为E的一个划分,,B为E的事件,则,称为全概率公式。

全概率公式实质:划分思想。讲一个复杂事件分解为若干互不相容简单事件的和。使问题简化。

  • 例:小王保险公司有部分员工不务正业,上班期间刷抖音。小王悄咪咪发现,在耍手机人中,中年员工刷抖音概率为50%,青年员工刷抖音概率为30%。小王公司有200名员工,其中50名中年员工,150名青年员工。请问小王如果随便抓一人,他在刷抖音概率是多少?

设事件A1表示小王抓到中年员工,事件A2表示小王抓到青年员工,事件B表示该员工在刷抖音。

P(B)=P(A1B)+P(A2B)=P(A1)P(B|A1)+P(A2)P(B|A2)=(50/200)*50%+(150/200)*30%=1/8+9/40=7/20

这里红色的部分就是全概率公式。

贝叶斯公式

我们将之前的全概率公式按四种情况来拆开,P(B)=P(A1)P(B|A1)+P(A2)P(B|A2)+P(A3)P(B|A3)+P(A4)P(B|A4),这是一个多因推果的过程。我们假设B事件为小白参加某次考试考的非常好,这是结果。A1事件为小白勤奋,A2事件为老师教的好,A3事件为题目简单,A4事件为小白发挥的好。现在我们反过来看一下在B事件已经发生的情况下,A1、A2、A3、A4占的概率各是多大呢?

由于A1发生下,B的条件概率为P(B|A1)=P(A1B)/P(A1)则P(A1B)=P(A1)P(B|A1)

A1的条件概率P(A1|B)=P(A1B)/P(B)=P(A1)P(B|A1)/(P(A1)P(B|A1)+P(A2)P(B|A2)+P(A3)P(B|A3)+P(A4)P(B|A4))

同理A2的条件概率P(A2|B)=P(A2B)/P(B)=P(A2)P(B|A2)/(P(A1)P(B|A1)+P(A2)P(B|A2)+P(A3)P(B|A3)+P(A4)P(B|A4))

更一般的,来自第i个原因Ai的条件概率P(Ai|B)=P(AiB)/P(B)=P(Ai)P(B|Ai)/,我们称该式子为贝叶斯公式

贝叶斯公式是由果推因,已知结果B,求第i个原因Ai的条件概率。

贝叶斯公式

为S的一个划分,,B为E的事件,则

贝叶斯公式的实质是由果推因。其中P(Ai)是Ai事件的先验概率边缘概率之所以称为"先验"是因為它不考虑任何B方面的因素。P(Ai|B)是已知B发生后Ai的条件概率,也由于得自B的取值而被称作Ai的后验概率。P(B|Ai)是已知Ai发生后B的条件概率,也由于得自Ai的取值而被称作B的后验概率。P(B)即()是B事件的先验概率边缘概率,也作标准化常量。按这些术语,贝叶斯定理可表述为:后验概率 = (相似度*先验概率)/标准化常量,这里相似度即为P(B|Ai),为B的后验概率。也就是說,后验概率与先验概率和相似度的乘积成正比。另外,比例 P(B|Ai)/P(B)也有时被称作标准相似度,贝叶斯定理可表述为:后验概率 =标准相似度*先验概率

  • 例:小王保险公司有部分员工不务正业,上班期间刷抖音。小王悄咪咪发现,在耍手机人中,中年员工刷抖音概率为50%,青年员工刷抖音概率为30%。小王公司有200名员工,其中50名中年员工,150名青年员工。随机抽查一人,发现他竟然在刷抖音,求问他是年轻人的概率是多少?

设事件A1表示小王抓到中年员工,事件A2表示小王抓到青年员工,事件B表示该员工在刷抖音。

P(A2|B)=P(A2B)/P(B)=P(A2)P(B|A2)/P(B)=(150/200)*30%/(7/20)=(9/40)/(7/20)=9/14

独立事件

事件相互独立定义

定义:事件A发生时对事件B发生概率没有影响,则事件A,B相互独立。如果事件A,B相互独立,则满足等式P(AB)=P(A)P(B)

证明:若A,B相互独立,则P(B|A)=P(B),进而P(AB)/P(A)=P(B),于是P(AB)=P(A)P(B)

注:

  1. 若A,B相互独立,则A与与B,也相互独立。
  2. 拓展到n个事件相互独立,有

  • 例:两架飞机依次轮番对同一目标投弹,第1架投弹击中目标的概率为0.3,第2架投弹击中目标的概率为0.4,求目标被击中的概率。

事件A1表示第一架飞机击中目标,事件A2表示第二架飞机击中目标。由题意知A1、A2相互独立

方法1:目标被击中概率为P(A1)+P(A1A2)+P(A2)=P(A1)P()+P(A1)P(A2)+P()P(A2)=0.3*(1-0.4)+0.3*0.4+(1-0.3)*0.4=0.58

方法2:目标未被击中概率为P()=P()P()=(1-0.3)(1-0.4)=0.42,则目标被击中的概率为1-0.42=0.58

随机变量及其分布

随机变量的基本概念

我们之前在随机事件里面说有这么几种事件

  1. 太阳东升西落。(确定型)
  2. 在十字路口遇到红绿灯的颜色。样本空间E=[红,绿,黄]
  3. 一男一女牵手后在一起的时间。样本空间E=[0,+∞)
  4. 将一枚骰子投掷一次,记录点数可能的结果。样本空间E=[1,2,3,4,5,6]

现在抛开确定型,我们来看2、3、4,我们将用数字来表示的样本空间3、4,称为数值型,而用文字表示的样本空间2称为非数值型

一般我们在进行数学计算的时候都是使用数值来进行计算的,那么对于非数值型,我们该怎么处理呢?这个时候我们只需要进行一个人为的指定一个映射就好了,比如我们将2中样本空间中的红定义为0,绿定义为1,黄定义为2.就有

现在我们假设这三种交通灯在一天时间内的出现的概率都为1/3,则在一天内的分布律就为

颜色 绿
P 1/3 1/3 1/3

通常我们将这种映射关系定义为一个函数,但在这里我们给它定义为随机变量。比如我们定义随机变量X,则X(红)=0,X(绿)=1,X(黄)=2。当然我们也可以不写定义域,只写值域X=0,X=1,X=2,现在我们可以把分布律重新描述

X 0 1 2
P 1/3 1/3 1/3

这个表我们称为随机变量的分布律。更详细来说叫做离散型随机变量的分布律。这里我们可以表示为P(X=0)=1/3,P(X=1)=1/3,P(X=2)=1/3。

随机变量及分布律概念

随机变量,即样本空间->实数集的映射关系;随机变量分为离散型和非离散型随机变量(连续型、混合型等)。

对于离散型随机变量,用分布律表示:

分布律求解步骤:

  1. 罗列X一切取值。
  2. 求出不同取值对应概率。分布律表中(非负性)P≥0(规范性)概率和为1

  • 例:已知随机变量X的分布律如下图所示,求c的值

根据非负性可得

,得√1/12≤c≤√13/12

根据规范性可得

1/2+c/2+c^2-1/12+1/12=1得c=1/2或c=-1,由于√1/12≤c≤√13/12,最终c=1/2

  • 例:设在5只同类型零件中有2只次品,现从中抽取3只,以X表示3只中所含次品的个数。
  1. 求X的分布律
  2. 求次品数不大于1只的概率有多大?

X的所有可能取值0、1、2

P(X=0)=/=1/10

P(X=1)=/=6/10=3/5

P(X=2)=/=3/10

则X的分布律为

X 0 1 2
P 1/10 3/5 3/10

次品数不大于1的概率P(X≤1)=P(X=0)+P(X=1)=1/10+3/5=7/10

两点分布

小王和老婆小白通过抽牌来决定谁洗盘子,小王让老婆从方片1-10这10张牌中任意抽取一张,如果牌号是奇数,则老婆洗盘子;如果牌号是偶数,则小王洗盘子。

设随机变量X表示洗盘子的人,X=0表示小白洗盘子,X=1表示小王洗盘子,则P(X=0)=1/2,P(X=1)=1/2,则分布律为

X 0 1
P 1/2 1/2

像这种只有两个点的分布类型,我们称为两点分布,或者叫0-1分布。根据分布律的规范性(概率和为1),则两点分布的概率,如果其中一点的概率为p,则另一点的概率为1-p

X 0 1
P p 1-p

两点分布(0-1分布)

随机试验只有2种结果,即样本空间中只有两个样本点(非是即非型),称这种随机试验为贝努力试验,分布律称为两点分布

生活中很多试验服从两点分布,比如检验产品是否合格,考试成绩是否合格,应聘者是否被录用等等。

如果用随机变量X=1代表是(命中率),X=0代表否(未命中率),则分布律如下

  • 例:某次射击,已知某射手的命中率为0.8,求射击一次命中目标次数的分布律。

X取值为0(未命中),1(命中)

P(X=1)=0.8

P(X=0)=1-0.8=0.2

分布律为

X 0 1
P 0.2 0.8

二项分布

小王和老婆小白第二回想通过抛硬币来决定谁洗盘子,小王和小白每人抛硬币3次,谁出现正面的次数多,谁就洗盘子。

这个问题转变成抛3次出现k次正面的问题。如果只抛1次,它是一个单纯的贝努力试验,要么正面,要么反面。现在抛了3次,所以它是一个重复的贝努力试验,每次结果和上次结果之间是互不干扰的,它是相互独立的,所以又称为独立重复贝努力试验,简称为独立重复试验。

化为更一般的问题,就是求n次里面出现k次的概率。现在我们来看一下3次里面出现2次的概率。

设事件Ai表示第i次出现正面(i=1,2,3),那么3次里面出现2次的概率为P(A1A2)+P(A1A3)+P(A2A3),因为是独立事件,则

P(A1A2)+P(A1A3)+P(A2A3)=P(A1)P(A2)P()+P(A1)P()P(A3)+P()P(A2)P(A3),这里无论Ai=1/2,由于是两点分布,则=1-1/2,所以该式等于

(1/2)*(1/2)*(1-1/2)+(1/2)*(1-1/2)*(1/2)+(1-1/2)*(1/2)*(1/2)=3/8,则3次中出现2次正面的概率为3/8

3次里面出现2次正面的样本数为=3,该题有一个更简单的办法为*(1/2)*(1/2)*(1-1/2)

我们用随机变量X表示3次试验中,出现k次正面的次数的概率P(X=k)=*(1/2)^k*(1-1/2)^(3-k)

更一般的,n次中命中k次,命中率为p,则概率为P(X=k)=*p^k*(1-p)^(n-k)

第一类独立重复试验(二项分布)

第一类独立重复试验,指的是独立重复进行n次贝努力试验,直到"命中"k次为止

设每次试验"命中"概率为p,则命中k次的概率为

这就是成功次数的分布律,称随机变量X服从参数为n,p的二项分布,记为X~b(n,p)

我们将k的所有次数的概率相加,根据分布律的规范性,它们的和为1

P^0(1-P)^n+P^1(1-P)^(n-1)+...+P^n(1-P)^0=1

现在我们换一种方式来看待上面的式子,也能看出来它等于1。根据二项式定理(x+y)^n展开成和形式

我们可以看到P^0(1-P)^n+P^1(1-P)^(n-1)+...+P^n(1-P)^0=(P+(1-P))^n=1

既然这个式子是一个二项式定理展开式,所以我们把这个分布称为二项分布。

如果我们把这个式子的n只进行1次,即n=1时,由于==1,则有,该分布变为两点分布,两点分布是二项分布特殊情况,(即n=1时),即只进行一次贝努力试验。

  • 例:某篮球运动员投篮命中概率是2/3,设随机变量X表示3次独立投篮命中次数。求
  1. X的概率分布
  2. 3次中命中不少于2次的概率是多少?

单次投篮,要么命中,要么不命中,这是一个典型的贝努力试验,现在对该贝努力试验进行了3次,而且是独立重复的贝努力试验的,所以这是一个二项分布。

X的概率分布P(X=k)=(2/3)^k(1-2/3)^(3-k)

k=0,P(X=0)=1/27

k=1,P(X=1)=6/27

k=2,P(X=2)=12/27

k=3,P(X=3)=8/27

则分布律为

X 0 1 2 3
P 1/27 6/27 12/27 8/27

不少于2次的概率P(X≥2)=P(X=2)+P(X=3)=12/27+8/27=20/27

  • 例:已知10个产品中有5个次品,现从中有放回地取3次,每次任取1个,求
  1. 在所取的3个中,恰有2个次品的概率。
  2. 如果把上述条件改为无放回,那还能二项分布来做吗?如果不能,概率是多少?

如果只取1次,要么是正品,要么是次品,满足单纯的贝努力试验,现在对该贝努力试验进行了3次,由于是有放回,所以是独立重复的贝努力试验的,所以这是一个二项分布。

1,设随机变量X表示3次中取到次品的次数,这里单次命中率是5/10=1/2,P(X=2)=(1/2)^2(1-1/2)^(3-2)=3/8

2,由于是无放回的,它不满足独立性,所以不能使用二项分布来做。可以使用古典概型来处理。

/=5/12

泊松分布

上节中二项分布,这里有一个问题,那就是如果n很大的时候,我们的计算就会非常复杂。假设n->∞时,P(X=k)是多少呢?

现在我们就来对二项分布公式求当n->∞时的极限。

λ=np,=(n(n-1)(n-2)...(n-k+1)/k!)(λ/n)^k(1-λ/n)^(n-k)

=(λ^k/k!)(n(n-1)(n-2)...(n-k+1)/n^k)(1-λ/n)^(n-k)

=(λ^k/k!)1•(1-1/n)(1-2/n)...(1-(k-1)/n)(1+(-λ/n))^((-n/λ)(-λ(n-k))/n)

根据我们在高等数学整理 中的两个重要极限之一可得

=(λ^k/k!)e^(-λ)     这里λ=np,当n很大的时候,它的极限概率就是(λ^k/k!)e^(-λ),称为参数为λ的泊松分布。

泊松分布(二项分布中n较大情况下)

泊松(Poisson)定理

设随机变量X~b(n,p),则

这里λ=np,X服从参数为λ泊松分布简记为X~π(λ)P(λ)

该定理说明,二项分布的极限分布是泊松分布。所以当n很大时,可以用泊松分布公式近似求解概率值,泊松定理中的值有表可查

泊松分布表(累积概率)

这里首行是λ值,首列是m值。比方说我们要求0~6,λ为0.5的累积概率,则查表可得为1。

更多的泊松分布表可以参考百度文库https://wenku.baidu.com/view/2c76184087c24028905fc36b.html

  • 例:小王的保险公司,经调研,发现意外伤亡率为0.002,现有2500人参保,参保费为每人缴纳保险费120,若意外伤亡,公司赔付20000,求问保险公司亏本概率。

设随机变量X表示伤亡人数,如果保险公司亏本,则20000X>120*2500,则X>15,现在要求的是大于15人伤亡的概率。

从参保单人来看,要么活着,要么伤亡,这是典型的贝努力试验,现在2500人都遵循这个规律,它是一个独立重复的贝努力试验(任何一人的情况对其他人都不造成影响),符合二项分布。

所以二项分布概率为P(X=k)=•0.002^k•(1-0.002)^(2500-k),现在要求的是X>15的概率,则为

P(X>15)=•0.002^k•0.098^(2500-k)=1-P(X≤15)=1-•0.002^k•0.098^(2500-k)

λ=np=2500*0.002=5,近似服从λ=5泊松分布。P(X=k)=λ^k*e^(-λ)/k!=5^k*e^(-5)/k!

1-P(X≤15)=1-5^k*e^(-5)/k!

通过查表

1-P(X≤15)=1-5^k*e^(-5)/k!=1-0.99993=0.00007

最终可以看出小王的保险公司亏本的概率为0.00007

  • 例:一家商店某种商品每月销售件数可以用参数λ=5的泊松分布来描述,为了以95%以上的把握保证不脱销,问:商店在月底至少应进某种商品多少件?

用X表示商品销售量(件)        P(X=k)=λ^k•e^(-λ)/k!=5^k•e^(-5)/k!

设进货量为m件,则P(X≤m)>95%,则

5^k•e^(-5)/k!>95%

通过查表

我们发现,当m=9的时候,累计概率大于95%,则m≥9,至少进货9件

几何分布

小王和老婆小白第3回想通过抛硬币来决定谁洗盘子,小王和小白每人不停抛硬币,谁先出现正面,谁就洗盘子。

首先,如果只抛一次,要么正面,要么反面,这是一个贝努力试验。如果进行了n次,则是独立重复的贝努力试验,但是跟二项分布不同的是,这里只是最后一次抛出正面,而二项分布是指在这n次中出现了几次正面。

我们假设抛了3次出现了正面,设事件Ai表示第i次抛出正面,这里i=3。首先P(A1)=P(A2)=P(A3)=1/2

前两次未出现正面,第三次出现正面的概率满足分步计数原理(乘法原理),则概率为P(A3),同时又是相互独立事件,则

P(A3)=P()P()P(A3)=(1-1/2)*(1-1/2)*1/2=(1-1/2)^2*1/2=1/8

现在我们将这个问题拓展到k次,直到第k次才命中,单次命中率设为p,则概率为P(X=k)=(1-p)^(k-1)*p

第二类独立重复试验(几何分布)

第二类独立重复试验,是指进行独立重复贝努力试验,设每次命中率为p,直到第k次才命中,其试验次数X的分布律为

称随机变量X服从参数为p的几何分布,记为X~Ge(p)

几种常见离散型随机变量分布律对比

分布律名 描述 P(X=k)分布律公式
0-1分布(两点分布) 最简单的随机试验,只有2种结果,称为贝努力试验
二项分布 n次独立重复的贝努力试验中命中k次
泊松分布 二项分布中n趋于无穷的极限即为泊松分布
几何分布 独立重复贝努力试验中直到第k次才命中
  • 例:设一汽车在开往目的地的道路上需经过四盏信号灯,每盏信号灯以概率p禁止汽车通过,以X表示汽车首次停下时已通过信号灯的盏数,求X的分布律(设备信号灯的工作是相互独立的)。

P(X=k)=(1-p)^(k-1)*p    (k=1,2,3,4)

分布律

X 1 2 3 4
P p (1-p)p (1-p)^2•p (1-p)^3•p

离散型随机变量分布函数

小王和老婆小白通过抽牌来决定谁洗盘子,小王让老婆从方片1-10这10张牌中任意抽取一张,如果牌号小于等于5,则老婆洗盘子,否则小王洗盘子。

设随机变量X=k表示抽到牌号为k(k=1,2,3...10)

P(X=k)=1/10   (k=1,2,3...10)   这是X的分布律

P(X≤5)=P(X=1)+P(X=2)+P(X=3)+P(X=4)+P(X=5)=1/2    这里我们称为X的累计概率

设F(x)=P(X≤x)    我们称之为分布函数,落在(-∞,x]区间的概率。一般分布律是落在某一个点的概率,而分布函数是落在某个区间的概率。

随机变量的分布函数

F(x)=P(X≤x)称为随机变量X分布函数,表示随机变量X落在(-∞,x]上的概率

性质:

  1. 单调性:,F(x)单调不减(用于求分布律或分布函数)
  2. 有界性:F(x)定义域为R,值域[0,1]且(考察分布律性质)
  3. 连续性:F(x)右连续(考察分布律性质)

我们来看一下它的单调性,假设随机变量X的分布律如下

X a1 a2 a3 a4 ... an
P p1 p2 p3 p4 ... pn

我们将X的取值画在一个数轴上

F(x2)-F(x1)=P(X≤x2)-P(X≤x1)=P(x1<X≤x2)

根据概率的非负性,规范性,有限可加性,则任何一点的概率P≥0,则任何一个区间的累计概率P(x1<X≤x2)≥0,这里我们假设x2≥x1,即为F(x2)-F(x1)≥0,当自变量递增时,函数值也是递增的,说明F(x)是个单调递增的函数。但由于这是一个离散型概率,见下图

我们可以看到x3>x1,此时F(X3)=F(x1)=P(a1),则当自变量增大的时候,函数值有可能相等,所以我们称F(x)单调不减

我们再来看一下它的有界性,根据分布律的性质,我们知道,所有分布律的概率和为1,则值域的最小值为0,最大值为1。由下图可知

F(x4)=P(X≤x4)=0,即x->-∞的时候,F(x)=0;F(x5)=P(X≤x5)=1,即x->+∞的时候,F(x)=1

我们再来看一下它的连续性,我们在高等数学整理 中知道,函数的连续性是:左极限=右极限=该点函数值

f(x)=f(x0),左极限为f(x)=f(x0),右极限为f(x)=f(x0)

当x从左端趋向于a4的时候,F(x)=P(X=a1)+P(X=a2)+P(X=a3),现在我们的函数包含了a1,a2,a3。由于是从左端趋近,所以没到a4,所以分布函数不包含a4;当x从右端趋向于a4的时候,F(x)=P(X=a1)+P(X=a2)+P(X=a3)+P(X=a4),可见它的左右极限不相等,而F(a4)=P(X=a1)+P(X=a2)+P(X=a3)+P(X=a4),等于右极限,所以F(x)右连续。

  • 例:分布律求分布函数
X -1 2 3
P 1/4 1/2 1/4

求:X的分布函数,并求P{X≤1/2},P{3/2<X≤5/2}

1、当x<-1时,F(x)=0

当-1≤x<2时,F(x)=P(X=-1)=1/4

当2≤x<3时,F(x)=P(X=-1)+P(X=2)=3/4

当x≥3时,F(x)=1

P(3/2<X≤5/2)=F(5/2)-F(3/2)=3/4-1/4=1/2

已知求X分布律

当-1≤x<0时,F(x)=P(X=-1)=1/4,则P(X=-1)=1/4

当0≤x<1时,F(x)=P(X=-1)+P(X=0)=1/2,则P(X=0)=1/4

当x≥1时,F(x)=P(X=-1)+P(X=0)+P(X=1)=1,则P(X=1)=1/2

所以分布律为

X -1 0 1
P 1/4 1/4 1/2
  • 例:已知X的分布函数,求系数A和B.

,则0=0恒成立

,则=A=1得A=1

F(x)=F(0)得A+B=0,得B=-1

展开阅读全文
加载中

作者的其它热门文章

打赏
0
0 收藏
分享
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部