随机事件的基本概念
我们来看三个事件
- 太阳东升西落。
- 在十字路口遇到红绿灯的颜色。
- 一男一女牵手后在一起的时间。
首先,我们可以肯定的是太阳东升西落是肯定会发生的,我们称为确定现象。而在十字路口遇到红绿灯的颜色可能是红色,可能是绿色,可能是黄色,这个是不确定的,我们称之为随机现象。对随机现象做的一次实验,我们称为随机实验。虽然在十字路口会遇到什么颜色的灯,我们不知道,但是所有的结果,我们是可以预见的(红、绿、黄),这又表现出了一定的确定性,而且这种实验,我们是可以重复的。而一男一女牵手后在一起的时间也是一个随机现象,他们可能马上就分手,也有可能一生一世。
随机事件及样本空间
随机试验的所有可能结果组成的集合称为样本空间。记为E,集合的每个元素称为一个样本点。样本点可以是有限个或无穷多个,可以是离散值或连续值。
样本空间子集成为随机事件,简称事件(事件本质就是集合)。几种特殊的子集:
- 一个元素组成的集合,称为基本事件。
- 样本空间本身,即全集E,称为必然事件。
- 空集ø称为不可能事件。
则在十字路口遇到红绿灯的颜色的样本空间E1=[红,绿,黄],而其中的元素即为各个样本点e1=红、e2=绿、e3=黄。一男一女牵手后在一起的时间的样本空间E2=[0,+∞),但它的样本点是不可罗列的。所以红绿灯事件的样本点是离散的,有3个样本点;而牵手后在一起的时间是连续的,它的样本点是无穷的。
我们再来看一下如果顺利通过红绿灯的事件,就是样本空间E1的一个子集A=[绿,黄],A∈E1,如果无法通过红绿灯的事件,也是样本空间E1的一个子集B=[红],B∈E1,并且该事件为一个基本事件;如果两个人在一起至少5年时间,那么这个子集C=[5,+∞),C∈E2。
- 例题,描述如下三个随机试验的样本空间。
- E1,将一枚骰子投掷一次,记录点数可能的结果。
- E2,将一枚硬币同时抛掷两次,记录前后每次正反面出现可能结果。
- E3,测量一批灯泡寿命,记录可能的结果。
这里很明显E1=[1,2,3,4,5,6],E2=[(正,正),(正,反),(反,正),(反,反)],E3=[0,+∞)
从E2我们可以看出,样本点可以是一维的,也可以是二维甚至高维的。
- 描述E2随机试验中的以下事件。
- 事件A1="第一次出现正面"
- 事件A2="恰好出现一次正面"
- 事件A3="至少出现一次正面"
这里A1=[(正,正),(正,反)];A2=[(正,反),(反,正)];A3=[(正,正),(正,反),(反,正)]
事件的基本运算
之前我们说了事件的本质是集合,现在我们来看一个例子:
小王与小白结婚,家人和朋友送的礼物如下
称谓 | 赠予礼物 |
---|---|
小王父母 | 1W现金,一对金镯子 |
小白父母 | 1W现金 |
朋友小刘 | 支付宝转账600元 |
朋友小韩 | 500元现金+泰迪狗一只 |
朋友小金 | 台式计算机一台 |
朋友小花 | 价值500元SPA券一张 |
朋友小张 | 200元现金+200元游戏点卡一张 |
这里我们可以把这些事件进行一下划分
- 事件A表示送钱的人:A=[小王父母,小白父母,朋友小刘,朋友小韩,朋友小张]
- 事件B表示送实物的人:B=[小王父母,朋友小韩,朋友小金]
- 事件C表示送虚拟物品的人:C=[朋友小花,朋友小张]
- 现在我们来看一下送钱或送实物的人该怎么表示事件?
事件A和事件B的并集,A ∪ B=[小王父母,小白父母,朋友小刘,朋友小韩,朋友小张,朋友小金]
- 送钱且送实物的人该怎么表示事件?
事件A和事件B的交集,A ∩ B=[小王父母,朋友小韩]
- 送了钱没送实物的人该怎么表示事件?‘
事件A与事件B的差集,A-B=[小白父母,朋友小刘,朋友小张]
事件的基本运算(韦恩图法,用集合表示事件)
因事件本质是集合,即把事件的相关关系转化为集合的相关关系
- 事件包含(集合包含):事件A发生必导致事件B发生,则称事件B包含事件A;事件包含即集合包含。若AB事件相互包含,则称AB事件相等,事件相等即集合相等。
- 和事件(并集):指事件A或事件B发生,即AB事件至少一个发生。A ∪ B
- 积事件(交集):事件A且事件B都发生。A ∩ B或者AB
- 差事件(差集):事件A发生且事件B不发生,则称事件差集A-B,
- 互斥事件(互不相容事件):指AB不可能同时发生,即A ∩ B=ø
- 对立事件(互逆事件):事件A与事件B必然且只发生一个,即A ∩ B=ø且A+B=U(全集,即必然事件,对立一定互斥,互斥不一定对立)
事件运算性质(即集合运算性质)
交换律:
结合律:
分配律:
对偶律:
互补律:
- 例:箱子里有4个白球,6个红球。采用不放回抽样,依次记录两次抽到的结果。设事件A={第一次抽到白球},事件B={第二次抽到红球}。求A+B,AB,A-B。
A+B=[(白,白),(白,红),(红,红)]
AB=[(白,红)]
A-B=A=[(白,白)]
- 例:设某人连续射击3次,设事件Ai={第i次击中目标},用事件运算表示如下事件
- 没有击中目标
- 恰好有一次击中目标
- 至少有一次击中目标
这里我们用A1表示第1次击中事件,A2表示第2次击中事件,A3表示第3次击中事件。
第3种情况中,第一个括号中是中一次的,第二个括号是中两次的,第三部分是中三次的。
以小王、小白结婚为例,我们来看一下Python代码
if __name__ == "__main__": A = {"小王父母", "小白父母", "朋友小刘", "朋友小韩", "朋友小张"} B = {"小王父母", "朋友小韩", "朋友小金"} C = {"朋友小花", "朋友小张"} print(A | B) print(A & B) print(A - B)
运行结果
{'小王父母', '朋友小刘', '小白父母', '朋友小金', '朋友小韩', '朋友小张'}
{'小王父母', '朋友小韩'}
{'朋友小张', '朋友小刘', '小白父母'}
古典概型
小王和小白婚后进行蜜月之旅,他们想从A城到B城,可以坐火车、汽车、轮船。一天中,火车3班,汽车2班,轮船1班,那么他俩从A城到B城共有多少种走法?第二天他们又计划去C城,从B城到C城可以坐火车或汽车,火车一天3班,汽车一天2班,他俩从A城到C城共有多少种不同走法?
A->B(或) 一共是3+2+1=6种走法
B->C(或) 一共是3+2=5种走法
A->B->C(且) 一共是6*5=30种走法
分类计数原理(加法原理):完成一件事情,有n类办法,第1类有m1种方法,第2类有m2种方法......第n类有mn种方法。那么完成此事共N=m1+m2+....+mn种方法。加法原理是或者关系,即n类办法选一种即可完成此事。
分布计数原理(乘法原理):完成一件事情,总共需要n步,第1步m1种方法,第2步m2种方法......第n步mn种方法。那么完成此时共N=m1*m2*....*mn种方法。乘法原理是并且关系,即n步都要完成才能完成此事。
排列数与组合数
- 组合数:从n个元素中取出m个元素,即完成此事,称作n个元素中取出m个元素一个组合,其组合数为
- 排列数:从n个元素中取出m个元素,再顺便排个序,才算完事,称作n个元素中取出m个元素一个排列,其排列数为
排列数和组合数的根本区别是,一个取出来就完事(不用排序),一个取出来还要排序,根据分步计数原理,
小王和老婆小白通过抽牌来决定谁洗盘子,小王让老婆从方片1-10这10张牌中任意抽取一张,如果牌号是奇数,则老婆洗盘子;如果牌号是偶数,则小王洗盘子;这么做公平吗?
我们把小白洗盘子的事件定义为A=[1,3,5,7,9];小王洗盘子的事件定义为B=[2,4,6,8,10];样本空间E=[1,2,3,4,5,6,7,8,9,10]
小白洗盘子的几率=5/10=1/2,小王洗盘子的几率=5/10=1/2。可以像这样子计算概率的方式,我们称为古典概型。
古典概型模型(简称古典概型)的两个特点:
- 样本空间中的元素只有有限个;
- 试验中每个样本点(基本事件)是等可能发生的。
对于古典概型,设样本空间包含n个样本,事件A包含k个样本点,则事件A发生的概率为
古典概型有两个经典模型:无放回抽样模型和有放回抽样模型
- 例:袋中有4只白球和2只红球(不放回抽样),从袋中摸球两次,每次任取一球,求:两球都是白球的概率,求两球一红一白的概率。
这道题满足古典概型的有限个和等可能。
摸球两次是从6个球里取2个,所以方法总数为=6*5/2=15种
事件A表示两次都是白球,A的样本点数为=4*3/2=6种
则P(A)=/
=6/15=2/5
事件B表示一红一白,B的样本点数为=4*2=8种
则P(B)=/
=8/15
from scipy.special import comb if __name__ == "__main__": PA = comb(4, 2) / comb(6, 2) print(PA) PB = comb(4, 1) * comb(2, 1) / comb(6, 2) print(PB)
运行结果
0.4
0.5333333333333333
- 例:袋中有4只白球和2只红球(放回抽样),从袋中摸球两次,每次任取一球,求:两球都是白球的概率,求两球一红一白的概率。
摸球两次,有放回,所以方法总数为=6*6=36种
事件A表示两次都是白球,有放回,A的样本点数为=4*4=16
则P(A)=()/(
)=16/36=4/9
事件B表示一红一白,有放回,B的样本点数为+
=8+8=16
则P(B)=(+
)/(
)=16/36=4/9
from scipy.special import comb if __name__ == "__main__": PA = (comb(4, 1) * comb(4, 1)) / (comb(6, 1) * comb(6, 1)) print(PA) PB = (comb(4, 1) * comb(2, 1) + comb(2, 1) * comb(4, 1)) / (comb(6, 1) * comb(6, 1)) print(PB)
运行结果
0.4444444444444444
0.4444444444444444
几何概型
小白发现小王经常跟朋友在外面吃吃喝喝,于是怀疑小王藏了私房钱,于是喊了闺蜜小红来一起找私房钱。
小白负责找主卧10平,小红负责找客厅30平,问谁找到私房钱的几率更大?很明显小红找到私房钱的概率更大为30/40=3/4,而小白找到私房钱的概率为10/40=1/4,虽然这里的样本点有无穷多个(房间内有无数个点,每个点都是等可能藏有私房钱的),但像这样的计算方式,我们称为几何概型。
几何概型的特点:
等可能概型的两个特点:
- 样本空间的样本点有无穷多个。
- 试验中每个样本点(基本事件)是等可能发生的。
具备这两个特点的模型为几何概型。
L(A)是事件A子区域的度量,L(Ω)是样本空间的度量,度量可以是长度(1维度量),面积(2维度量),体积(3维度量)等。
古典概型和几何概型比较
古典概型 | 几何概型 | |
---|---|---|
样本(基本事件)个数 | 有限个 | 无限个 |
每个样本出现可能性 | 等可能 | 等可能 |
概率公式 | A包含基本事件个数/基本事件总数 | 构成事件A的测度(长度、面积、体积等)/样本空间测度 |
- 例(长度型):在[-1,2]上随机取一个数x,则x属于[0,2]的概率为多少?
设事件A表示x落入[0,2]区间,由此可知,此题为几何概型(无穷个,等可能)
事件A长度度量为2-0=2,
样本空间长度度量为2-(-1)=3
事件A发生概率P(A)=2/3
- 例(面积型):某运动会上,铁饼项目运动员向一矩形区域进行扔铁饼训练,该矩形长6米宽4米,铁饼是半径为1米的圆,则该运动员总能将铁饼扔进矩形区域的概率为多少?
由题意知,此模型为几何概型
样本空间面积度量为6*4=24
设事件A表示铁饼扔进矩形区域
通过上图,我们发现,铁饼的圆心刚好在红色矩形内,铁饼才能落入训练的矩形区域。则事件A对应面积度量为:2*4=8
则事件A发生概率P(A)=8/24=1/3
- 例(体积型):在一杯500ml水中,有一个未繁殖的病毒,舀一瓢水(约30ml),求所舀的水中含有该病毒的概率?
由题可知,此模型为几何概型
所求概率为30/500=3/50
- 例(多维型):小王与某朋友约定今天下午2点至3点在咖啡厅见面,并约定先到者等候另一人一刻钟,超过时间就走人,求两人能见面的概率。
设小王是2点x分到达,他朋友是2点y分到达。
设事件A表示两人能见面,现在我们要求的是在红色图形区域内,A=[|x-y|≤15],其中0≤x≤60,0≤y≤60
则(x,y)的点要落入红色区域内,两人才能见面,所以事件A的概率P(A)=(60*60-45*45*2/2)/(60*60)=7/16,这里分子为矩形面积减去两个三角形的面积,分母为矩形面积。
概率的公理化定义
之前我们讲的无论是古典概型还是几何概型,它们每个样本出现的可能性都是等可能的,用这两种概型来定义概率是不够全面的,不可能所有随机事件都是等可能的。
一天晚上,小王和他的朋友小张一起喝啤酒,通过抛硬币来决定谁喝,如果硬币正面朝上,就小王喝,反之则小张喝。他们一共喝了8瓶啤酒,小王喝了7瓶,而小张只喝了1瓶。小王很纳闷,抛硬币正反面出现的概率应该是一样的,两个人差不多应该都喝4瓶左右,为什么会相差这么悬殊呢?这是小王混淆了频率和概率的概念。
在相同条件下,共进行了n次试验,事件A发生的次数nA,称为nA的频数,nA/n称为事件A发生的频率。随着n逐渐增大,频率nA/n逐渐稳定在某一个数值p,则数值p称为事件A在该条件下发生的概率。
频率特点:
- 非负性:
- 规范性:
(所有事件的频率和为1)
- 有限可加性:
(所有事件是互斥的,比如抛硬币,要么正面,要么反面)
历史上数学家所做的抛硬币实验数据
该定义难以计算,事件随机性强,求无穷下极限所得概率是很困难的。
概率的公理化定义
定义:设S是样本空间,E是随机试验,对于E的每个事件A对应一个实数P(A),称为事件A的概率,其中集合函数P()满足下列条件
- P(A)≥0;(非负性)
- P(S)=1;(规范性)
- 设A1,A2......是两两互不相容的事件,则有P(A1 ∪ A2 ∪ ...)=P(A1)+P(A2)+....(可列可加性)
概率性质(集合思想)
- (非负性与规范性)有P(A)≥0,P(E)=1
- (有限可加性)A1,A2,....两两互不相容P(A1 ∪ A2 ∪ ...)=P(A1)+P(A2)+....,更一般的,
(这里A、B不互斥),
(这里A、B、C不互斥)
- (差集)
,
,特别的,若
,则有
,故
- (对偶性)
(德摩根定律)
- 例(根据概率性质解答相关问题):设P(A)=0.3;P(B)=0.4,P(AB)=0.2,求下列事件概率
解:1,=
=1-0.2=0.8
2,=
=0.4-0.2=0.2
3,=
=(1-0.3)+0.4-0.2=0.9
4,=1-P(AB)=1-0.2=0.8
条件概率
小王跟小白在拍拖前,小白给小王出了几道题,并说如果小王答对了这几道题,就跟小王拍拖。其中有一道题为:我(小白)最喜欢的颜色是?有3个选项
- 蓝色
- 绿色
- 粉红(正确答案)
小王对这道题没底,小白也看了出来,并说,我给你去掉一个选项,于是就去掉了蓝色,现在备选答案为绿色和粉红。最终小王选择了正确的粉红。
我们从数学的角度来看这个问题,在未去掉蓝色前,样本空间E=[蓝色,绿色,粉红],设事件A为小王答对,则A=[粉红],则小王答对的概率为一个古典概型。p(A)=N(A)/N(E)=1/3,这里N表示样本点数。
在去掉蓝色后,设事件B为表示已知蓝色为排除选项,B=[绿色,粉红],则p(A)=N(A)/N(B)=1/2。由于在去掉蓝色前后,小王答对问题的概率都用p(A)来表示,容易让你混淆,所以在小白提示的条件下,小王答对的概率为在事件B已经发生的条件下,事件A发生的概率记为p(A|B)=N(A)/N(B)=1/2。像这种一个事件发生的条件下,另一个事件发生的概率,我们称之为条件概率。而未去掉蓝色前,事件A的概率,我们称为普通概率。
而我们怎么来求这个条件概率呢?我们叫这个为缩小样本空间法,p(A)=N(A)/N(E)到p(A|B)=N(A)/N(B),样本空间缩小了。由于A事件发生了,表示B事件肯定发生了,所以p(A|B)=N(A)/N(B)=N(AB)/N(B),这里A<=>AB。
我们可以由p(A|B)=N(AB)/N(B),分子分母同时除以N(E),p(A|B)=(N(AB)/N(E))/(N(B)/N(E))=p(AB)/p(B),我们称之为公式法。现在我们再来看一下使用公式法怎么求小王选出正确答案的概率p(A|B)。这里P(AB)=p(A)=1/3,p(B)=N(B)/N(E)=2/3,则p(A|B)=p(AB)/p(B)=(1/3)/(2/3)=1/2。
条件概率定义公式:
定义:A、B为两个事件,P(A)>0,称P(B|A)=P(AB)/P(A)为事件A发生条件下事件B发生的条件概率。
P(A|U)=P(A),所以平时说的(无条件)概率,是条件概率特殊情况。这里U是全集样本空间。
条件概率是概率的推广,既然也是概率,条件概率具备概率的所有性质。
条件概率求法:
- 缩减样本空间法
- 公式法
乘法公式:由条件概率公式可得乘法公式P(AB)=P(A)P(B|A)
- 例:有6个大小形状完全相同的小球,4白2红,不放回地依次取出2个,问在第一次取到红球前提下,第2次取到白球概率。
缩小样本空间法:
设事件A表示第一次取到红球,A=[4白,1红]
设事件B表示第二次取到白球,B=[4白],则P(B|A)=4/(4+1)=4/5
公式法:
P(B|A)=P(AB)/P(A)=(/
)/(
/
)=(8/30)/(10/30)=4/5
全概率公式
小王开了一家小保险公司,小王搞到了2张球赛入场券,想发给5个元老级员工。大家都想去,于是采用抽签决定,你觉得公平吗?
设事件A表示第1人抽中P(A)=2/5;设事件B表示第2人抽中,我们来看一下第2个人的抽中的概率是否跟第1个人相同。
首先根据在之前古典概型中讲的分步计数原则,假设第1人抽中,第2人也抽中,概率则为P(AB);假设第1人没抽中,第2人抽中,概率为P(B)。同时这两种情况又属于分类计数,所以P(B)=P(AB)+P(
B),根据条件概率公式P(B|A)=P(AB)/P(A)推导的P(AB)=P(A)P(B|A)可得,P(B)=P(A)P(B|A)+P(
)P(B|
),该式子更能体现分步计数的概念,在第一步中与没中的情况下,第二步中的条件概率。第一个人中了,还剩4张,则P(B|A)=1/4;第一个人没中,还剩4张,则P(B|
)=2/4=1/2.
P(B)=P(A)P(B|A)+P()P(B|
)=(2/5)*(1/4)+(1-2/5)*(1/2)=2/5。由这个推断结果,说明了抽签结果的概率跟顺序没有关系。
我们将这2种情况推广到多种情况。
全概率公式
设为E的一个划分,
,B为E的事件,则
,称为全概率公式。
全概率公式实质:划分思想。讲一个复杂事件分解为若干互不相容简单事件的和。使问题简化。
- 例:小王保险公司有部分员工不务正业,上班期间刷抖音。小王悄咪咪发现,在耍手机人中,中年员工刷抖音概率为50%,青年员工刷抖音概率为30%。小王公司有200名员工,其中50名中年员工,150名青年员工。请问小王如果随便抓一人,他在刷抖音概率是多少?
设事件A1表示小王抓到中年员工,事件A2表示小王抓到青年员工,事件B表示该员工在刷抖音。
P(B)=P(A1B)+P(A2B)=P(A1)P(B|A1)+P(A2)P(B|A2)=(50/200)*50%+(150/200)*30%=1/8+9/40=7/20
这里红色的部分就是全概率公式。
贝叶斯公式
我们将之前的全概率公式按四种情况来拆开,P(B)=P(A1)P(B|A1)+P(A2)P(B|A2)+P(A3)P(B|A3)+P(A4)P(B|A4),这是一个多因推果的过程。我们假设B事件为小白参加某次考试考的非常好,这是结果。A1事件为小白勤奋,A2事件为老师教的好,A3事件为题目简单,A4事件为小白发挥的好。现在我们反过来看一下在B事件已经发生的情况下,A1、A2、A3、A4占的概率各是多大呢?
由于A1发生下,B的条件概率为P(B|A1)=P(A1B)/P(A1)则P(A1B)=P(A1)P(B|A1)
A1的条件概率P(A1|B)=P(A1B)/P(B)=P(A1)P(B|A1)/(P(A1)P(B|A1)+P(A2)P(B|A2)+P(A3)P(B|A3)+P(A4)P(B|A4))
同理A2的条件概率P(A2|B)=P(A2B)/P(B)=P(A2)P(B|A2)/(P(A1)P(B|A1)+P(A2)P(B|A2)+P(A3)P(B|A3)+P(A4)P(B|A4))
更一般的,来自第i个原因Ai的条件概率P(Ai|B)=P(AiB)/P(B)=P(Ai)P(B|Ai)/,我们称该式子为贝叶斯公式。
贝叶斯公式是由果推因,已知结果B,求第i个原因Ai的条件概率。
贝叶斯公式
设为S的一个划分,
,B为E的事件,则
贝叶斯公式的实质是由果推因。其中P(Ai)是Ai事件的先验概率或边缘概率。之所以称为"先验"是因為它不考虑任何B方面的因素。P(Ai|B)是已知B发生后Ai的条件概率,也由于得自B的取值而被称作Ai的后验概率。P(B|Ai)是已知Ai发生后B的条件概率,也由于得自Ai的取值而被称作B的后验概率。P(B)即()是B事件的先验概率或边缘概率,也作标准化常量。按这些术语,贝叶斯定理可表述为:后验概率 = (相似度*先验概率)/标准化常量,这里相似度即为P(B|Ai),为B的后验概率。也就是說,后验概率与先验概率和相似度的乘积成正比。另外,比例 P(B|Ai)/P(B)也有时被称作标准相似度,贝叶斯定理可表述为:后验概率 =标准相似度*先验概率。
- 例:小王保险公司有部分员工不务正业,上班期间刷抖音。小王悄咪咪发现,在耍手机人中,中年员工刷抖音概率为50%,青年员工刷抖音概率为30%。小王公司有200名员工,其中50名中年员工,150名青年员工。随机抽查一人,发现他竟然在刷抖音,求问他是年轻人的概率是多少?
设事件A1表示小王抓到中年员工,事件A2表示小王抓到青年员工,事件B表示该员工在刷抖音。
P(A2|B)=P(A2B)/P(B)=P(A2)P(B|A2)/P(B)=(150/200)*30%/(7/20)=(9/40)/(7/20)=9/14
独立事件
事件相互独立定义
定义:事件A发生时对事件B发生概率没有影响,则事件A,B相互独立。如果事件A,B相互独立,则满足等式P(AB)=P(A)P(B)
证明:若A,B相互独立,则P(B|A)=P(B),进而P(AB)/P(A)=P(B),于是P(AB)=P(A)P(B)
注:
- 若A,B相互独立,则A与
,
与B,
与
也相互独立。
- 拓展到n个事件相互独立,有
- 例:两架飞机依次轮番对同一目标投弹,第1架投弹击中目标的概率为0.3,第2架投弹击中目标的概率为0.4,求目标被击中的概率。
事件A1表示第一架飞机击中目标,事件A2表示第二架飞机击中目标。由题意知A1、A2相互独立
方法1:目标被击中概率为P(A1)+P(A1A2)+P(
A2)=P(A1)P(
)+P(A1)P(A2)+P(
)P(A2)=0.3*(1-0.4)+0.3*0.4+(1-0.3)*0.4=0.58
方法2:目标未被击中概率为P()=P(
)P(
)=(1-0.3)(1-0.4)=0.42,则目标被击中的概率为1-0.42=0.58
随机变量及其分布
随机变量的基本概念
我们之前在随机事件里面说有这么几种事件
- 太阳东升西落。(确定型)
- 在十字路口遇到红绿灯的颜色。样本空间E=[红,绿,黄]
- 一男一女牵手后在一起的时间。样本空间E=[0,+∞)
- 将一枚骰子投掷一次,记录点数可能的结果。样本空间E=[1,2,3,4,5,6]
现在抛开确定型,我们来看2、3、4,我们将用数字来表示的样本空间3、4,称为数值型,而用文字表示的样本空间2称为非数值型。
一般我们在进行数学计算的时候都是使用数值来进行计算的,那么对于非数值型,我们该怎么处理呢?这个时候我们只需要进行一个人为的指定一个映射就好了,比如我们将2中样本空间中的红定义为0,绿定义为1,黄定义为2.就有
现在我们假设这三种交通灯在一天时间内的出现的概率都为1/3,则在一天内的分布律就为
颜色 | 红 | 绿 | 黄 |
P | 1/3 | 1/3 | 1/3 |
通常我们将这种映射关系定义为一个函数,但在这里我们给它定义为随机变量。比如我们定义随机变量X,则X(红)=0,X(绿)=1,X(黄)=2。当然我们也可以不写定义域,只写值域X=0,X=1,X=2,现在我们可以把分布律重新描述
X | 0 | 1 | 2 |
P | 1/3 | 1/3 | 1/3 |
这个表我们称为随机变量的分布律。更详细来说叫做离散型随机变量的分布律。这里我们可以表示为P(X=0)=1/3,P(X=1)=1/3,P(X=2)=1/3。
随机变量及分布律概念
随机变量,即样本空间->实数集的映射关系;随机变量分为离散型和非离散型随机变量(连续型、混合型等)。
对于离散型随机变量,用分布律表示:
分布律求解步骤:
- 罗列X一切取值。
- 求出不同取值对应概率。分布律表中(非负性)P≥0(规范性)概率和为1
- 例:已知随机变量X的分布律如下图所示,求c的值
根据非负性可得
,得√1/12≤c≤√13/12
根据规范性可得
1/2+c/2+c^2-1/12+1/12=1得c=1/2或c=-1,由于√1/12≤c≤√13/12,最终c=1/2
- 例:设在5只同类型零件中有2只次品,现从中抽取3只,以X表示3只中所含次品的个数。
- 求X的分布律
- 求次品数不大于1只的概率有多大?
X的所有可能取值0、1、2
P(X=0)=/
=1/10
P(X=1)=/
=6/10=3/5
P(X=2)=/
=3/10
则X的分布律为
X | 0 | 1 | 2 |
P | 1/10 | 3/5 | 3/10 |
次品数不大于1的概率P(X≤1)=P(X=0)+P(X=1)=1/10+3/5=7/10
两点分布
小王和老婆小白通过抽牌来决定谁洗盘子,小王让老婆从方片1-10这10张牌中任意抽取一张,如果牌号是奇数,则老婆洗盘子;如果牌号是偶数,则小王洗盘子。
设随机变量X表示洗盘子的人,X=0表示小白洗盘子,X=1表示小王洗盘子,则P(X=0)=1/2,P(X=1)=1/2,则分布律为
X | 0 | 1 |
P | 1/2 | 1/2 |
像这种只有两个点的分布类型,我们称为两点分布,或者叫0-1分布。根据分布律的规范性(概率和为1),则两点分布的概率,如果其中一点的概率为p,则另一点的概率为1-p
X | 0 | 1 |
P | p | 1-p |
两点分布(0-1分布)
随机试验只有2种结果,即样本空间中只有两个样本点(非是即非型),称这种随机试验为贝努力试验,分布律称为两点分布。
生活中很多试验服从两点分布,比如检验产品是否合格,考试成绩是否合格,应聘者是否被录用等等。
如果用随机变量X=1代表是(命中率),X=0代表否(未命中率),则分布律如下
- 例:某次射击,已知某射手的命中率为0.8,求射击一次命中目标次数的分布律。
X取值为0(未命中),1(命中)
P(X=1)=0.8
P(X=0)=1-0.8=0.2
分布律为
X | 0 | 1 |
P | 0.2 | 0.8 |
二项分布
小王和老婆小白第二回想通过抛硬币来决定谁洗盘子,小王和小白每人抛硬币3次,谁出现正面的次数多,谁就洗盘子。
这个问题转变成抛3次出现k次正面的问题。如果只抛1次,它是一个单纯的贝努力试验,要么正面,要么反面。现在抛了3次,所以它是一个重复的贝努力试验,每次结果和上次结果之间是互不干扰的,它是相互独立的,所以又称为独立重复贝努力试验,简称为独立重复试验。
化为更一般的问题,就是求n次里面出现k次的概率。现在我们来看一下3次里面出现2次的概率。
设事件Ai表示第i次出现正面(i=1,2,3),那么3次里面出现2次的概率为P(A1A2)+P(A1
A3)+P(
A2A3),因为是独立事件,则
P(A1A2)+P(A1
A3)+P(
A2A3)=P(A1)P(A2)P(
)+P(A1)P(
)P(A3)+P(
)P(A2)P(A3),这里无论Ai=1/2,由于是两点分布,则
=1-1/2,所以该式等于
(1/2)*(1/2)*(1-1/2)+(1/2)*(1-1/2)*(1/2)+(1-1/2)*(1/2)*(1/2)=3/8,则3次中出现2次正面的概率为3/8
3次里面出现2次正面的样本数为=3,该题有一个更简单的办法为
*(1/2)*(1/2)*(1-1/2)
我们用随机变量X表示3次试验中,出现k次正面的次数的概率P(X=k)=*(1/2)^k*(1-1/2)^(3-k)
更一般的,n次中命中k次,命中率为p,则概率为P(X=k)=*p^k*(1-p)^(n-k)
第一类独立重复试验(二项分布)
第一类独立重复试验,指的是独立重复进行n次贝努力试验,直到"命中"k次为止。
设每次试验"命中"概率为p,则命中k次的概率为
这就是成功次数的分布律,称随机变量X服从参数为n,p的二项分布,记为X~b(n,p)
我们将k的所有次数的概率相加,根据分布律的规范性,它们的和为1
P^0(1-P)^n+
P^1(1-P)^(n-1)+...+
P^n(1-P)^0=1
现在我们换一种方式来看待上面的式子,也能看出来它等于1。根据二项式定理(x+y)^n展开成和形式
我们可以看到P^0(1-P)^n+
P^1(1-P)^(n-1)+...+
P^n(1-P)^0=(P+(1-P))^n=1
既然这个式子是一个二项式定理展开式,所以我们把这个分布称为二项分布。
如果我们把这个式子的n只进行1次,即n=1时,由于
=
=1,则有
,该分布变为两点分布,两点分布是二项分布特殊情况,(即n=1时),即只进行一次贝努力试验。
- 例:某篮球运动员投篮命中概率是2/3,设随机变量X表示3次独立投篮命中次数。求
- X的概率分布
- 3次中命中不少于2次的概率是多少?
单次投篮,要么命中,要么不命中,这是一个典型的贝努力试验,现在对该贝努力试验进行了3次,而且是独立重复的贝努力试验的,所以这是一个二项分布。
X的概率分布P(X=k)=(2/3)^k(1-2/3)^(3-k)
k=0,P(X=0)=1/27
k=1,P(X=1)=6/27
k=2,P(X=2)=12/27
k=3,P(X=3)=8/27
则分布律为
X | 0 | 1 | 2 | 3 |
P | 1/27 | 6/27 | 12/27 | 8/27 |
不少于2次的概率P(X≥2)=P(X=2)+P(X=3)=12/27+8/27=20/27
- 例:已知10个产品中有5个次品,现从中有放回地取3次,每次任取1个,求
- 在所取的3个中,恰有2个次品的概率。
- 如果把上述条件改为无放回,那还能二项分布来做吗?如果不能,概率是多少?
如果只取1次,要么是正品,要么是次品,满足单纯的贝努力试验,现在对该贝努力试验进行了3次,由于是有放回,所以是独立重复的贝努力试验的,所以这是一个二项分布。
1,设随机变量X表示3次中取到次品的次数,这里单次命中率是5/10=1/2,P(X=2)=(1/2)^2(1-1/2)^(3-2)=3/8
2,由于是无放回的,它不满足独立性,所以不能使用二项分布来做。可以使用古典概型来处理。
/
=5/12
泊松分布
上节中二项分布,这里有一个问题,那就是如果n很大的时候,我们的计算就会非常复杂。假设n->∞时,P(X=k)是多少呢?
现在我们就来对二项分布公式求当n->∞时的极限。
令λ=np,=
(n(n-1)(n-2)...(n-k+1)/k!)(λ/n)^k(1-λ/n)^(n-k)
=(λ^k/k!)(n(n-1)(n-2)...(n-k+1)/n^k)(1-λ/n)^(n-k)
=(λ^k/k!)1•(1-1/n)(1-2/n)...(1-(k-1)/n)(1+(-λ/n))^((-n/λ)(-λ(n-k))/n)
根据我们在高等数学整理 中的两个重要极限之一可得
=(λ^k/k!)e^(-λ) 这里λ=np,当n很大的时候,它的极限概率就是(λ^k/k!)e^(-λ),称为参数为λ的泊松分布。
泊松分布(二项分布中n较大情况下)
泊松(Poisson)定理
设随机变量X~b(n,p),则
这里λ=np,X服从参数为λ泊松分布简记为X~π(λ)或P(λ)
该定理说明,二项分布的极限分布是泊松分布。所以当n很大时,可以用泊松分布公式近似求解概率值,泊松定理中的值有表可查。
泊松分布表(累积概率)
这里首行是λ值,首列是m值。比方说我们要求0~6,λ为0.5的累积概率,则查表可得为1。
更多的泊松分布表可以参考百度文库https://wenku.baidu.com/view/2c76184087c24028905fc36b.html
- 例:小王的保险公司,经调研,发现意外伤亡率为0.002,现有2500人参保,参保费为每人缴纳保险费120,若意外伤亡,公司赔付20000,求问保险公司亏本概率。
设随机变量X表示伤亡人数,如果保险公司亏本,则20000X>120*2500,则X>15,现在要求的是大于15人伤亡的概率。
从参保单人来看,要么活着,要么伤亡,这是典型的贝努力试验,现在2500人都遵循这个规律,它是一个独立重复的贝努力试验(任何一人的情况对其他人都不造成影响),符合二项分布。
所以二项分布概率为P(X=k)=•0.002^k•(1-0.002)^(2500-k),现在要求的是X>15的概率,则为
P(X>15)=•0.002^k•0.098^(2500-k)=1-P(X≤15)=1-
•0.002^k•0.098^(2500-k)
λ=np=2500*0.002=5,近似服从λ=5泊松分布。P(X=k)=λ^k*e^(-λ)/k!=5^k*e^(-5)/k!
1-P(X≤15)=1-5^k*e^(-5)/k!
通过查表
1-P(X≤15)=1-5^k*e^(-5)/k!=1-0.99993=0.00007
最终可以看出小王的保险公司亏本的概率为0.00007
- 例:一家商店某种商品每月销售件数可以用参数λ=5的泊松分布来描述,为了以95%以上的把握保证不脱销,问:商店在月底至少应进某种商品多少件?
用X表示商品销售量(件) P(X=k)=λ^k•e^(-λ)/k!=5^k•e^(-5)/k!
设进货量为m件,则P(X≤m)>95%,则
5^k•e^(-5)/k!>95%
通过查表
我们发现,当m=9的时候,累计概率大于95%,则m≥9,至少进货9件
几何分布
小王和老婆小白第3回想通过抛硬币来决定谁洗盘子,小王和小白每人不停抛硬币,谁先出现正面,谁就洗盘子。
首先,如果只抛一次,要么正面,要么反面,这是一个贝努力试验。如果进行了n次,则是独立重复的贝努力试验,但是跟二项分布不同的是,这里只是最后一次抛出正面,而二项分布是指在这n次中出现了几次正面。
我们假设抛了3次出现了正面,设事件Ai表示第i次抛出正面,这里i=3。首先P(A1)=P(A2)=P(A3)=1/2
前两次未出现正面,第三次出现正面的概率满足分步计数原理(乘法原理),则概率为P(A3),同时又是相互独立事件,则
P(A3)=P(
)P(
)P(A3)=(1-1/2)*(1-1/2)*1/2=(1-1/2)^2*1/2=1/8
现在我们将这个问题拓展到k次,直到第k次才命中,单次命中率设为p,则概率为P(X=k)=(1-p)^(k-1)*p
第二类独立重复试验(几何分布)
第二类独立重复试验,是指进行独立重复贝努力试验,设每次命中率为p,直到第k次才命中,其试验次数X的分布律为
称随机变量X服从参数为p的几何分布,记为X~Ge(p)
几种常见离散型随机变量分布律对比
分布律名 | 描述 | P(X=k)分布律公式 |
---|---|---|
0-1分布(两点分布) | 最简单的随机试验,只有2种结果,称为贝努力试验 | ![]() |
二项分布 | n次独立重复的贝努力试验中命中k次 | ![]() |
泊松分布 | 二项分布中n趋于无穷的极限即为泊松分布 | ![]() |
几何分布 | 独立重复贝努力试验中直到第k次才命中 | ![]() |
- 例:设一汽车在开往目的地的道路上需经过四盏信号灯,每盏信号灯以概率p禁止汽车通过,以X表示汽车首次停下时已通过信号灯的盏数,求X的分布律(设备信号灯的工作是相互独立的)。
P(X=k)=(1-p)^(k-1)*p (k=1,2,3,4)
分布律
X | 1 | 2 | 3 | 4 |
P | p | (1-p)p | (1-p)^2•p | (1-p)^3•p |
离散型随机变量分布函数
小王和老婆小白通过抽牌来决定谁洗盘子,小王让老婆从方片1-10这10张牌中任意抽取一张,如果牌号小于等于5,则老婆洗盘子,否则小王洗盘子。
设随机变量X=k表示抽到牌号为k(k=1,2,3...10)
P(X=k)=1/10 (k=1,2,3...10) 这是X的分布律
P(X≤5)=P(X=1)+P(X=2)+P(X=3)+P(X=4)+P(X=5)=1/2 这里我们称为X的累计概率
设F(x)=P(X≤x) 我们称之为分布函数,落在(-∞,x]区间的概率。一般分布律是落在某一个点的概率,而分布函数是落在某个区间的概率。
随机变量的分布函数
F(x)=P(X≤x)称为随机变量X分布函数,表示随机变量X落在(-∞,x]上的概率
性质:
- 单调性:
,F(x)单调不减(用于求分布律或分布函数)
- 有界性:F(x)定义域为R,值域[0,1]且
(考察分布律性质)
- 连续性:F(x)右连续(考察分布律性质)
我们来看一下它的单调性,假设随机变量X的分布律如下
X | a1 | a2 | a3 | a4 | ... | an |
P | p1 | p2 | p3 | p4 | ... | pn |
我们将X的取值画在一个数轴上
F(x2)-F(x1)=P(X≤x2)-P(X≤x1)=P(x1<X≤x2)
根据概率的非负性,规范性,有限可加性,则任何一点的概率P≥0,则任何一个区间的累计概率P(x1<X≤x2)≥0,这里我们假设x2≥x1,即为F(x2)-F(x1)≥0,当自变量递增时,函数值也是递增的,说明F(x)是个单调递增的函数。但由于这是一个离散型概率,见下图
我们可以看到x3>x1,此时F(X3)=F(x1)=P(a1),则当自变量增大的时候,函数值有可能相等,所以我们称F(x)单调不减。
我们再来看一下它的有界性,根据分布律的性质,我们知道,所有分布律的概率和为1,则值域的最小值为0,最大值为1。由下图可知
F(x4)=P(X≤x4)=0,即x->-∞的时候,F(x)=0;F(x5)=P(X≤x5)=1,即x->+∞的时候,F(x)=1
我们再来看一下它的连续性,我们在高等数学整理 中知道,函数的连续性是:左极限=右极限=该点函数值
f(x)=f(x0),左极限为
f(x)=f(x0),右极限为
f(x)=f(x0)
当x从左端趋向于a4的时候,F(x)=P(X=a1)+P(X=a2)+P(X=a3),现在我们的函数包含了a1,a2,a3。由于是从左端趋近,所以没到a4,所以分布函数不包含a4;当x从右端趋向于a4的时候,
F(x)=P(X=a1)+P(X=a2)+P(X=a3)+P(X=a4),可见它的左右极限不相等,而F(a4)=P(X=a1)+P(X=a2)+P(X=a3)+P(X=a4),等于右极限,所以F(x)右连续。
- 例:分布律求分布函数
X | -1 | 2 | 3 |
P | 1/4 | 1/2 | 1/4 |
求:X的分布函数,并求P{X≤1/2},P{3/2<X≤5/2}
1、当x<-1时,F(x)=0
当-1≤x<2时,F(x)=P(X=-1)=1/4
当2≤x<3时,F(x)=P(X=-1)+P(X=2)=3/4
当x≥3时,F(x)=1
则
P(3/2<X≤5/2)=F(5/2)-F(3/2)=3/4-1/4=1/2
- 例
已知求X分布律
当-1≤x<0时,F(x)=P(X=-1)=1/4,则P(X=-1)=1/4
当0≤x<1时,F(x)=P(X=-1)+P(X=0)=1/2,则P(X=0)=1/4
当x≥1时,F(x)=P(X=-1)+P(X=0)+P(X=1)=1,则P(X=1)=1/2
所以分布律为
X | -1 | 0 | 1 |
P | 1/4 | 1/4 | 1/2 |
- 例:已知X的分布函数
,求系数A和B.
由,则
0=0恒成立
由,则
=A=1得A=1
由F(x)=F(0)得A+B=0,得B=-1