概率论整理(二)

原创
2021/07/04 22:31
阅读数 1.2K

概率论整理

连续型随机变量概率密度函数

小王和老婆小白饭后又换了一个新游戏玩法来决定谁洗盘子,小王在电脑中写了一个小程序Math.random()来产生[0,1]的随机数,让老婆小白进行摇号,如果摇号值在[0,0.5]之间,则小白洗盘子,否则小王洗盘子。

由于0-1之间有无数个样本点,这是一个几何概型。我们设事件A为小白摇号的值落入[0,0.5],则A的概率P(A)=A长度/E长度=(0.5-0)/(1-0)=1/2

现在我们将该题进行拓展,我们设事件B为让值落入[a,b]

则P(B)=(b-a)/(1-0)=b-a     (0≤a<b≤1)

我们设事件C表示值为X0,发生的概率为多少?

我们知道一个点的长度为0,所以P(C)=0,现在问题来了,我们知道[a,b]这个区间是由一个个点组成的,那么为什么P(B)=b-a而不是0呢?

我们知道[a,b]区间中有无穷多个点,如果是有限个0相加为0,这是没问题的,但如果是无穷多个0相加,这个结果并不为0。我们来看一道求极限的题目

(1/n^2+2/n^2+...+n/n^2),当n->∞的时候,这里每一个单项都为0,所以它的结果为0吗?答案是错的。把该式进行化简后得n(n+1)/(2n^2),这是一个无穷/无穷的和式极限,具体可参考高等数学整理(二) 中定积分与和式极限内容。最高次数相同的时候,系数相除,所以n(n+1)/(2n^2)=1/2

现在我们回到[a,b]段内的累计概率问题,虽然在此区间内每一个点的概率都趋近于0,我们假设函数如下所示

这里每一个点的函数值都趋近于0,只不过我们为了看的比较明显,画了一个曲线函数。则图形中阴影的面积则为a到b的定积分f(x)dx,有关定积分的概念请参考高等数学整理(二)

则P(a≤x≤b)=f(x)dx,这里f(x)称为概率密度函数,这里可以想象成无数个点就是概率,而单个的就是概率密度。而整个式子就是[a,b]区间的概率。

连续型随机变量的概率密度

  1. 连续型随机变量的分布函数:,(这里f(x)称为该随机变量的概率密度函数)
  2. 概率与概率密度关系
  3. 概率密度性质:

非负性:f(x)≥0

规范性:

该性质可用于判断f(x)是否可以作为概率密度函数

离散型、连续型随机变量分布函数主要区别

分布函数F(x) 离散型随机变量X 连续型随机变量X
样本空间 有限个或可列无穷个 无穷不可列,充满区间
P(X=a) P(X=xk)=Pk P(X=a)=0
区间概率 一般P(a≤X≤b)≠P(a<X<b)≠P(a≤X<b)≠P(a<X≤b) P(a≤X≤b)=P(a<X<b)=P(a≤X<b)=P(a<X≤b)
与F(x)的对应关系 分布律pkF(x) 概率密度f(x)F(x)
  • 例:设随机变量X具有概率密度
  1. 求常数C
  2. 求分布函数
  3. 求P{-1<X≤1}

1,由f(x)dx+f(x)dx+f(x)dx=1

C(9-x^2)dx=1

C(9-x^2)的原函数为C9x-Cx^3/3

根据牛顿-莱布尼茨公式C(9-x^2)dx=C9*3-C*3^2-(C9*(-3)-C*(-3)^2)=1

得36C=1,得C=1/36

2,若x<-3,f(x)dx=0

若-3≤x≤3时,F(x)=f(x)dx+f(x)dx=(1/36)(9-x^2)dx

由于(9-x^2)/36的原函数为(9x-x^3/3)/36

根据牛顿-莱布尼茨公式,(1/36)(9-x^2)dx=(9x-x^3/3)/36-(9*(-3)-(-3)^3/3)/36=(9x-x^3/3+18)/36

当x>3,F(x)=1

则分布函数为

3,(1/36)(9-x^2)dx=(9-1/3)/36-(-9+1/3)/36=13/27

均匀分布

之前我们说在连续型随机变量中,一个点的概率为0,比如

P(X=0.5)=0,但0.5依然是样本空间的一个点,所以概率为0≠>不可能事件。反之,不可能事件的集合为空集ø,所以不可能事件的概率一定为0。

那么概率为1的一定是必然事件吗?比如设事件A落入区间(0,1),即0<x<1,则P(A)=(1-0)/(1-0)=1,那么事件A一定是必然事件吗?不一定,因为这里漏掉了两个点0和1。0和1依然是样本空间的点,依然可能取到0和1,所以概率为1≠>必然事件。反之,必然事件的集合为样本空间E,所以必然事件的概率一定为1.

之前我们在说概率密度函数的时候,画了这个图

根据经验,几何概型的概率密度函数f(x)是一个常数

我们先来看一下几何概型的概率分布函数

F(x)=P(X≤x)=(x-a)/(b-a),知道了分布函数,求概率密度函数,即为求分布函数的导数f(x)=F'(x)=((x-a)/(b-a))'=1/(b-a),通过推导,我们发现几何概型的概率密度函数果然是一个常数。我们称之为均匀分布。

均匀分布

若随机变量X在区间[a,b]上概率密度如下则服从均匀分布,记X~U(a,b)

函数图像为

均匀分布实际是几何概型的概率密度函数。生活中的大多数事件,如无特殊说明都可认为是均匀分布   

  • 例:设随机变量X服从[1,6]上的均匀分布,求一元二次方程\(t^2+Xt+1=0\)有实根的概率。

设事件A表示该方程有实根,由于t=\(-X(+/-)\sqrt{X^2-4} \over 2\),则\(X^2\)-4≥0=>X≥2或X≤-2

又X在[1,6]上服从均匀分布,则事件A={X|X≥2}

P(X≥2)=f(x)dx=\(1\over 6-1\)dx=\(1\over 5\)dx+0dx=\(4\over 5\)

当然均匀分布是几何概型的概率密度函数,当然也可以直接使用几何概型来算概率(6-2)/(6-1)=4/5

  • 例:随机变量X服从(2,5)上均匀分布,现对X进行3次独立重复观察,试求至少2次观测值大于3的概率

由于是均匀分布,则概率密度函数f(x)=1/(5-2)=1/3

P(X>3)=1/3dx=2/3

设随机变量Y表示大于3的次数,多次重复独立试验满足二项分布,根据

P(Y≥2)=(2/3)^k(1/3)^(3-k)=(2/3)^2(1/3)^1+(2/3)^3(1/3)^0=3*4/27+8/27=20/27

该题既包含了连续型随机变量分布,又包含了离散型随机变量的分布

  • 均匀分布的代码演示
from scipy.stats import uniform
import matplotlib.pyplot as plt
import numpy as np

if __name__ == '__main__':

    # 均匀分布属于连续型随机变量,这里进行离散模拟
    x = np.linspace(-1, 3.5, 1000)
    # 生成两组均匀分布的随机变量
    uniform_rv_0 = uniform()  # 默认0~1之间的均匀分布
    uniform_rv_1 = uniform(loc=0.5, scale=2)  # 0.5到2.5之间的均匀分布
    plt.plot(x, uniform_rv_0.pdf(x), color='r', lw=3, alpha=0.6, label='[0,1]')
    plt.plot(x, uniform_rv_1.pdf(x), color='b', lw=3, alpha=0.6, label='[0.5,2.5]')
    plt.legend(loc='best')
    plt.grid(ls='--')
    plt.show()

运行结果

正态分布

小王的保险公司每年都会组织员工进行免费体检,今年做完体检后将男女员工的身高进行了一个统计,女员工的身高分布如下

横坐标表示小王公司所有女员工身高的范围,纵坐标表示对应身高所占比例。从这个图中,我们可以看出,身高在中间的比例最高,特别矮和特别高的所占比例较小。比例我们在直方图中称为频率,在统计学上,我们习惯用频率来表示概率。所以这张图我们可以理解为身高在中间的概率最大,而身高较矮和身高较高的概率较小。图中的曲线,我们称为概率密度函数曲线。其实在我们生活中有大量的例子都满足这种曲线(中间高、两头低),比如说考试成绩,一般在中间的学生占的比例最大,考的特别差的和考的特别好的学生占的比例较小。这种形态的曲线的概率密度函数值得我们研究,具备这样一种形态的概率密度函数,我们称为高斯分布(正态分布)

高斯分布(正态分布)

设随机变量X的概率密度为

x∈R,µ,δ(δ>0)为常数,称X服从参数均值µ,方差的正态分布,记

正态分布概率密度函数f(x)性质

  1. 均值µ决定中心位置,曲线关于x=µ对称,在x=µ处取最大值;方差δ决定图像陡峭程度,δ越大越平缓。
  2. µ=0,δ=1时,称标准正态分布,X~N(0,1),f(x)写为,F(x)写为
  3. ,则=

标准正态分布表(值)

这里面首列表示小数部分第一位,首行表示小数部分第二位。

譬如Φ(0.32),先在最左边找到0.3,再在第一行找到2,就为Φ(0.32)=P(X≤0.32)=0.6255,当然我们使用这个表当且仅当X~N(0,1)时才可以使用。标准正态分布是关于y轴对称的。当然这里面没有负数,如果我们要求Φ(-0.32)怎么求呢,就要使用到Φ(-0.32)=1-Φ(0.32)=1-0.6225=0.3745

而在任意的正态分布中,,新的随机变量则服从标准正态分布。这是一个线性变换。譬如均值µ为0.1,方差δ为0.2,则X~N(0.1,0.2^2),现在我们要求P(X≤0.32)该怎么求呢?P(X≤0.32)=P((X-0.1)/0.2≤(0.32-0.1)/0.2)=P(Z≤(0.32-0.1)/0.2)=Φ((0.32-0.1)/0.2)=Φ(1.1),通过查表,可知Φ(1.1)=0.8643

3δ准则:若

取值几乎全落在[µ-3δ,µ+3δ]区间

  • 例:设某商店出售的白糖每包的标准全是500克,设每包重量X(以克计)是随机变量,X~N(500,25),求:
  1. 随机抽查一包,其重量大于510克的概率;
  2. 求常数c,使每包的重量小于c的概率至少为0.95。

1、P(X>510)=P((X-500)/|√25|>(510-500)/|√25|)=P((X-500)/5>2)=1-P((X-500)/5≤2)=1-Φ(2),通过查表可得1-Φ(2)=1-0.9772=0.0228

通过结果我们可以看到,我们可以拿到510克的概率很小。

2、P(X<c)≥0.95;

P(X<c)=P((X-500)/|√25|<(c-500)/|√25|)=Φ((c-500)/5)≥0.95,通过查表(c-500)/5=1.65,则c=508.25

  • 正态分布代码演示
from scipy.stats import norm
import matplotlib.pyplot as plt
import numpy as np

if __name__ == '__main__':

    fig, ax = plt.subplots(1, 1)
    # 构建一个均值为0,标准差为1的正态分布随机变量
    norm_0 = norm(loc=0, scale=1)
    # 构建一个均值为1,标准差为2的正态分布随机变量
    norm_1 = norm(loc=1, scale=2)
    # 生成一个从-10到10的1000个点的向量
    # 这里需要注意的是由于正态分布为连续型随机变量,但计算机无法表达连续性,只能使用这种离散方式来模拟
    x = np.linspace(-10, 10, 1000)
    # 画出第一个正态分布随机变量的横纵坐标
    ax.plot(x, norm_0.pdf(x), color='red', lw=3, alpha=0.6, label='loc=0,scale=1')
    # 画出第二个正态分布随机变量的横纵坐标
    ax.plot(x, norm_1.pdf(x), color='blue', lw=3, alpha=0.6, label='loc=1,scale=2')
    ax.legend(loc='best')
    plt.grid(ls='--')
    plt.show()

运行结果

指数分布

小王和小白结婚一周年了,在一个的浪漫的烛光晚餐之后,小白问小王,"小王,你会永远爱我吗?"。小王说:“我对你的爱就像均匀分布一样,永远不会改变。”小白听完以后非常感动,又接着问第二个问题,"小王,你会永远跟我在一起吗?"这个时候小王迟疑了一下,然后回答说:"从严谨的角度来说,我没有办法保证能永远跟你在一起。因为人的死亡率是随着年龄的增大而增大的。也就是说人活着的概率是随着年龄的增大而减小的。"这样一个规律大概符合下面的曲线。

小白听完以后十分的生气,觉得小王十分不解风情。但事实上,这确实是一个事实,而概率密度曲线是一个指数曲线,这个分布我们称为指数分布

指数分布

如果随机变量X概率密度如下,称其服从参数λ指数分布,记X~E(λ)

指数分布具有很好"无记忆性"即条件概率

  • 例:某电子元件的寿命x(年)服从参数为3的指数分布,
  1. 求该电子元件寿命超过2年的概率;
  2. 已知该电子元件已使用了1.5年求它能继续使用超过2年的概率为多少?

1、

P(X>2)=f(x)dx=3e^(-3x)dx=3e^(-3x)dx

3e^(-3x)的原函数为-e^(-3x),则根据牛顿-莱布尼茨公式3e^(-3x)dx=(-e^(-3t))-(-e^(-3*2))=e^(-6)

2、P(X>3.5|X>1.5)=P(X>3.5∩X>1.5)/P(X>1.5)=P(X>3.5)/P(X>1.5)=3e^(-3x)dx/(3e^(-3x)dx)=-e^(-3*3.5)/-e^(-3*1.5)=e^(-6)

从1、2两部分结合来看,无论这个元器件有没有使用过,它能使用超过2年的概率都是e^(-6),这就是指数分布的"无记忆性"

连续型随机变量三大分布之美名

  • 均匀分布U(a,b)

不偏不倚:在区间(a,b)的任何子区间(c,d)内,取值概率等于子区间与(a,b)长度比的分布

  • 正态分布N(µ,)

国民分布:理论与实践中应用最广,且对于任何随机试验,当试验次数n特别大时,都近似服从正态分布。

  • 指数分布E(λ)

永远年轻:在寿命,可靠性与排队理论中应用广泛且富"无记忆性",从而赢得"永远年轻"之美誉的分布。

随机变量的函数分布

小王和老婆小白想出各种游戏花样来决定谁洗盘子,每洗一次就获得2个积分。如果积分满20分就可以免洗一次盘子。设随机变量X表示小王洗盘子次数,随机变量Y表示小王所获得积分。请问随机变量Y与随机变量X有怎样的函数关系?如果知道随机变量X的分布律能否得出随机变量Y的分布律?

这里很明显,Y=2X。现在如果知道了X的分布律,那么能否得出Y的分布律。又或者X是一个连续型的随机变量,知道了X的概率密度函数,能否得出Y的概率密度函数。

离散型随机变量的函数的分布律

step1:根据Y=g(X)函数关系,求出随机变量Y所有可能取值;

这里离散型随机变量的每一个样本点都有对应的概率,构成了它整个的分布律。

X X1 X2 X3 ... Xn
P P1 P2 P3 ... Pn

step2:对于每个Y的值,找到对应X的值,然后查X分布律表找到对应概率即为p(y);如果一个Y对应多个X值,在X分布律表中将多个X值对应概率值相加即为p(y)。

这里如果Y1对应的X值为X1,那么Y1的概率也为P1。

如果Y2对应的X值为X2、X3,那么Y1的概率为P2+P3。

  • 例:设X具有以下的分布律,求Y=(X-1)^2分布律

X取值为-1、0、1、2,则Y的取值为4、1、0、1,去重后就为0、1、4

则P(Y=0)=P(X=1)=0.1

P(Y=1)=P(X=0)+P(X=2)=0.3+0.4=0.7

P(Y=4)=P(X=-1)=0.2

则Y的分布律为

Y 0 1 4
P 0.1 0.7 0.2

连续型随机变量的函数的概率密度

根据Y=g(X)及求解方法。(一般我们概率密度函数使用f(x)表示,这里加入下标是为了区别这两个函数不是一个函数)

我们知道由概率密度函数可以获得概率分布函数,->(x)=P(X≤x),(x)=->(y)=P(Y≤y),(y)=

直接由是比较困难的,我们可以先求分布函数(y),再求导即可。

(y)=P(Y≤y)=P(g(X)≤y),这里我们需要注意的是g(X)不一定是单调函数,所以x和y反过来的关系X=h(y)极有可能有两个值,我们假设为h1(y)和h2(y),并且h1(y)≤h2(y)。于是有了方法一的推导。

方法一:(分布函数法【普适方法,强力推荐】)

Step1:则

这里是一个复合函数,根据复合函数求导法则以及(x)=,则有step2。

Step2:等式两边同时对y求导,得:

当然如果g(x)为单调函数,则它一定有反函数h(y),则有下面的方法二。有关反函数的概念可以参考https://baike.baidu.com/item/%E5%8F%8D%E5%87%BD%E6%95%B0/91388?fr=aladdin

方法二:(公式法【仅适用于g(x)为单调函数情况下】)

Step1:根据Y=g(X)求出g的反函数h(y)

Step2:代入公式

我们来看一下当g(X)单调递增的时候,则它的反函数h(y)也是单调递增的,则(y)=P(Y≤y)=P(g(X)≤y)=P(X≤h(y))=(h(y))

等式两边求导,得=(h(y))•h'(y)

当g(X)单调递减的时候,则它的反函数h(y)也是单调递减的,则(y)=P(Y≤y)=P(g(X)≤y)=P(X≥h(y))=1-P(X<h(y))=1-(h(y))

等式两边求导,得=-(h(y))•h'(y)=(h(y))•(-h'(y))

由于g(X)单调递增的时候,g'(X)>0,反函数h(y)也是单调递增的,h'(y)>0;g(X)单调递减的时候,g'(X)<0,反函数h(y)也是单调递减的,h'(y)<0。所以有了=(h(y))•|h'(y)|

  • 例:设随机变量X~U(1,4),求随机变量Y=X^2的概率密度函数

(y)=P(Y≤y)=P(X^2≤y)=P(-√y≤X≤√y)=(√y)-(-√y)=>=(√y)/(2√y)-(-√y)/(-2√y)

由X~U(1,4)可知,则=(1/3)•(1/(2√y))-0•(-1/(2√y))=1/(6√y)

  • 例:证明:若,则~N(0,1)

概率分布函数(z)=P(Z≤z)=P((X-µ)/δ≤z)=P(X≤δz+µ)=(δz+µ)

两边同时对z求导得(z)=(δz+µ)•δ

因为,则(x)=这里-∞<x<+∞

(z)=(δz+µ)•δ=e^(-(δz+µ-µ)^2/(2δ^2)))•δ=(1/(√(2π))e^(-z^2/2))

所以Z~N(0,1)

多维随机变量及其分布

二维离散型随机变量分布律及分布函数

小王和老婆小白通过第5轮PK抽牌来决定谁洗盘子,小王和小白分别从方片A~4这4张牌中任取一张,谁的牌号小,谁就洗盘子。

我们设随机变量X表示小王抽取的牌号,随机变量Y表示小白抽取的牌号。则(X,Y)组成了一个二维随机变量。

无论谁先抽,(X,Y)的总样本数为=12,分别如下

小王:X=1,小白Y=2、3、4,则(X,Y)包含(1,2)、(1,3)、(1,4)

小王:X=2,小白Y=1、3、4,则(X,Y)包含(2,1)、(2,3)、(2,4)

小王:X=3,小白Y=1、2、4,则(X,Y)包含(3,1)、(3,2)、(3,4)

小王:X=4,小白Y=1、2、3,则(X,Y)包含(4,1)、(4,2)、(4,3)

则(X,Y)每一份的概率为1/12,则X,Y组成的联合分布律如下

Y\X 1 2 3 4
1 0 1/12 1/12 1/12
2 1/12 0 1/12 1/12
3 1/12 1/12 0 1/12
4 1/12 1/12 1/12 0

二维离散型随机变量联合分布律及分布函数

一、分布律性质

  1. 非负性:
  2. 规范性:

二、分布函数

二维随机变量分布函数性质

定义称为二维随机变量(X,Y)的分布函数

性质

  1. 单调性:单调不减,即若
  2. 有界性:
  3. 右连续性:F(x,y)关于x或y均右连续,
  4. 重要公式:

  • 例:一个袋中有三个球,依次标有数字1、2、2。任取一个,不放回袋中,再取一个,设每次取球时,各球被取到的可能性相等,以X,Y分别记第一次和第二次取到的球上标有的数字,求(X,Y)的分布律与分布函数。

(X,Y)所有可能取值为(1,2)、(2,1)、(2,2),则P(X=1,Y=2)=(1/3)•1=1/3;P(X=2,Y=1)=(2/3)•(1/2)=1/3;P(X=2,Y=2)=(2/3)•(1/2)=1/3。则X,Y的联合分布律如下

Y\X 1 2
1 0 1/3
2 1/3 1/3

由图可知X<1,Y<1,F(X,Y)=0;X≥2,Y≥2,F(X,Y)=1;1<X<2,1<Y<2,F(X,Y)=P(1,1)=0;1<X<2,Y≥2,F(X,Y)=P(1,1)+P(1,2)=1/3;X≥2,1<Y<2,F(X,Y)=P(1,1)+P(2,1)=1/3

二维连续型随机变量分布律及分布函数

之前我们在讲几何概型的时候有这么一道题:小王与某朋友约定今天下午2点至3点在咖啡厅见面,并约定先到者等候另一人一刻钟,超过时间就走人,求两人能见面的概率。当时我们讲的是(x,y)的点要落入红色区域内,两人才能见面,所以事件A的概率P(A)=(60*60-45*45*2/2)/(60*60)=7/16

设随机变量X为小王到的时间,X的范围为[0,60];随机变量Y为小王的朋友到的时间,Y的范围也为[0,60]。我们现在要考虑的是(X,Y)这个二维随机变量的特点。由于X、Y都是连续型的随机变量,所以(X,Y)是一个二维连续型随机变量。

现在我们来看一下二维连续型随机变量(X,Y)的分布函数,F(x,y)=P(X≤x,Y≤y),之前我们知道一维的连续型随机变量的分布函数为,它表示的意义为(这里f(x)为概率密度函数)

则F(x,y)就是一个区域的累积概率F(x,y)=P(X≤x,Y≤y)=f(µ,v)dµdv,这里的f(µ,v)是一个二维的概率密度函数。这里整个式子是一个二重积分,有关二重积分的内容请参考高等数学整理(三)

在一维的随机变量中,单点的概率为0,即P(X=x0)=0;而在二维的随机变量中,不仅单点的概率为0,即P(X=x0,Y=y0)=0,对于一条线来说,它的概率也是0,即P(X=x0,Y≤y0)=0或P(X≤x0,Y=y0)=0。

在一维的随机变量中,概率密度函数f(x)=F'(x);而在二维的随机变量中,概率分布函数F(x,y)对x求偏导,=f(x,v)dv,继续对y求偏导,=f(x,y)

在一维的随机变量中,区间概率为P(x1≤X≤x2)=f(x)dx;而在二维的随机变量中,它是对一个区域求概率,假设这个区域为Dxy,则概率P=f(x,y)dxdy

在一维的随机变量中,概率密度函数的性质为0≤f(x)≤1,;而在二维的随机变量中,0≤f(x,y)≤1,f(x,y)dxdy=1

二维连续型随机变量概率密度及分布函数

  1. 为二维连续型随机变量分布函数;f(x,y)为其概率密度函数,若f(x,y)在(x,y)连续,有
  2. 概率密度函数f(x,y)性质:
    1. 非负性:f(x,y)≥0
    2. 规范性:
  3. 若事件A中随机变量X,Y代表的区域为,则

  • 例:设二维随机变量(X,Y)概率密度如下,1、求常数C,2、求F(x,y),3、求P{Y≤X}

1、根据规范性dxdy,我们将y看成常数,对x进行积分,则的原函数为,根据牛顿-莱布尼茨公式得dxdy=(1/2)Ce^(-y)dy=-(1/2)Ce^(-y)=(1/2)C=1,最终可得C=2

2、F(x,y)=2e^(-(2µ+v))dµdv=2e^(-(2µ+v))dµdv=dv=(1-e^(-2x))e^(-v)dv=(1-e^(-2x))(-e^(-v))=(1-e^(-y))(1-e^(-2x))

3、画图

由图可知2e^-(2x+y)dydx=2e^(-2x)(-e^(-y))dx=2(1-e^(-x))e^(-2x)dx=1/3

边缘分布

之前我们在讲二维离散型随机变量的时候,举了一个例子:小王和老婆小白通过第5轮PK抽牌来决定谁洗盘子,小王和小白分别从方片A~4这4张牌中任取一张,谁的牌号小,谁就洗盘子。现在我们假设已知(X,Y)的联合分布律如下,那么我们要求X=1的概率是多少呢?

Y\X 1 2 3 4
1 0 1/12 1/12 1/12
2 1/12 0 1/12 1/12
3 1/12 1/12 0 1/12
4 1/12 1/12 1/12 0

实际上这是一个分类讨论的概念,使用加法原理即可。我们只需要锁定X=1,将所有的(X,Y)的联合分布概率加和就是X=1的概率,即为P(X=1)=P(X=1,Y=1)+P(X=1,Y=2)+P(X=1,Y=3)+P(X=1,Y=4)=0+1/12+1/12+1/12=1/4。这样在多维离散型分布中求单个维度随机变量,我们称为边缘分布

二维离散型随机变量边缘分布律及分布函数

设二维联合分布律,则

  1. X的边缘分布律为:(求就是把对应y列值相加即可)
  2. Y的边缘分布律为:(求就是把对应x列值相加即可)

边缘分布律,就是把二维离散型随机变量联合分布,转为一维随机变量的分布律。知道了(X,Y)边缘分布,(即X,Y各自分布律)再求其各自分布函数就简单了,

对比于二维离散型随机变量的边缘分布,二维连续型随机变量的边缘分布也是求单个随机变量的概率。离散型是分布律求和,连续型则是概率密度函数求积分

二维连续型随机变量边缘概率密度及分布函数

边缘概率密度:

边缘分布函数:

  • 例:求X,Y边缘分布律

P(X=1)=1/4+0+0+0=1/4

P(X=2)=1/8+1/8+0+0=1/4

P(X=3)=1/12+1/12+1/12+0=1/4

P(X=4)=1/16+1/16+1/16+1/16=1/4

则X的边缘分布律为

X 1 2 3 4
P 1/4 1/4 1/4 1/4

P(Y=1)=1/4+1/8+1/12+1/16=25/48

P(Y=2)=0+1/8+1/12+1/16=13/48

P(Y=3)=0+0+1/12+1/16=7/48

P(Y=4)=0+0+0+1/16=1/16

则Y的边缘分布律为

Y 1 2 3 4
P 25/48 13/48 7/48 1/16
  • 例:求X,Y边缘分布律

设(X,Y)的概率密度如下,求:常数C,边缘概率密度函数及边缘分布函数

1、

由上图可知:Cdydx=1

                        C(x-x^2)dx=1

                        C(x^2/2-x^3/3)=1

                        C=6

2、6dy=6dy=6(x-x^2)    (0≤x≤1)

3、=(3t^2-2t^3)=3x^2-2x^3    (0≤x≤1)

x<0    =0

x>1    =1

分布函数为

条件分布

小王和老婆小白通过第5轮PK抽牌来决定谁洗盘子,小王和小白分别从方片A~4这4张牌中任取一张,谁的牌号小,谁就洗盘子。问:已知小王抽到牌号1,小白抽到牌号2的概率。

这道题看一眼就知道小白抽到牌号2的概率为1/3。

我们设随机变量X表示小王抽取的牌号,随机变量Y表示小白抽取的牌号。则(X,Y)的联合分布律为

Y\X 1 2 3 4
1 0 1/12 1/12 1/12
2 1/12 0 1/12 1/12
3 1/12 1/12 0 1/12
4 1/12 1/12 1/12 0

X的边缘分布律为

X 1 2 3 4
P 1/4 1/4 1/4 1/4

Y的边缘分布律为

Y 1 2 3 4
P 1/4 1/4 1/4 1/4

 由之前的条件概率公式P(B|A)=P(AB)/P(A),这里P(A)=P(X=1),P(B)=P(Y=2),P(AB)=P(X=1,Y=2)

则P(B|A)=P(AB)/P(A)    =>    P(Y=2|X=1)=P(X=1,Y=2)/P(X=1),通过查表,可得P(X=1,Y=2)/P(X=1)=(1/12)/(1/4)=1/3刚好等于小白抽取到牌号2的概率,我们称这样的分布为条件分布

二维离散型随机变量条件分布

  1. (为X的边缘分布律)称为在条件下随机变量Y的条件分布律。
  2. (为Y的边缘分布律)称为在条件下随机变量Y的条件分布律。

二维连续型随机变量条件分布

  1. 为在条件Y=y下X的条件概率密度
  2. 为在条件X=x下Y的条件概率密度

分布函数

  1. 为在条件Y=y下X的条件分布函数
  2. 为在条件X=x下Y的条件分布函数
  • 例:求Y=2条件下X的分布律

可知,我们现在先要求的是P(Y=2)

P(Y=2)=0+1/8+1/12+1/16=13/48

P(X=1|Y=2)=P(X=1,Y=2)/P(Y=2)=0

P(X=2|Y=2)=P(X=2,Y=2)/P(Y=2)=(1/8)/(13/48)=6/13

P(X=3|Y=2)=P(X=3,Y=2)/P(Y=2)=(1/12)/(13/48)=4/13

P(X=4|Y=2)=P(X=4,Y=2)/P(Y=2)=(1/16)/(13/48)=3/13

所以Y=2,X的分布律为

X 1 2 3 4
P(X|Y=2) 0 6/13 4/13 3/13
  • 例:设(X,Y)在圆域上服从均匀分布,求条件概率密度

积分区域D

由均匀分布知:

Cdxdy=1  =>   π•1^2•C=1得C=1/π

则Y的边缘概率密度为=(1/π)dx=(1/π)dx=(2/π)√(1-y^2)

X的边缘概率密度为=(1/π)dy=(1/π)dy=(2/π)√(1=x^2)

则条件概率密度=(1/π)/((2/π)√(1-y^2))=1/(2√(1-y^2))            (-1≤y≤1,其他范围为0)

=(1/π)/((2/π)√(1-x^2))=1/(2√(1-x^2))            (-1≤x≤1,其他范围为0)

相互独立的随机变量

之前我们在讲事件的时候,讲到独立事件,有P(AB)=P(A)P(B),则独立事件的本质就为当A发生时,B的条件概率就为B本身的概率,即P(B|A)=P(B),而P(B|A)=P(AB)/P(A),则有P(B)=P(AB)/P(A),由此可以得到P(AB)=P(A)P(B)

  1. 离散型独立随机变量:我们假设X=xi表示为事件A,Y=yi表示为事件B,A,B相互独立,则有P(Y=yi|X=xi)=P(Y=yi)  =>   P(X=xi,Y=yi)/P(X=xi)=P(Y=yi)   =>   P(X=xi,Y=yi)=P(X=xi)P(Y=yi)。如果在分布律表中看随机变量是否独立,则看联合分布律是否等于各个随机变量的边缘分布律的乘积
  2. 连续型独立随机变量:=,这里表示Y的条件概率密度函数等于Y自身的概率密度函数。由该式可得f(x,y)=表示联合概率密度函数等于各个随机变量的边缘概率密度函数的乘积

相互独立的随机变量

定义:设(X,Y)为二维随机变量,若对于所有的x,y有,则称随机变量X和Y相互独立等价式:

离散型:

连续型:

  • 例:判断X,Y是否相互独立

X边缘分布律

X 1 2 3 4
P 1/4 1/4 1/4 1/4

Y边缘分布律

Y 1 2 3 4
P 25/48 13/48 7/48 1/16

我们来看一下X=2,Y=2的情况下,它的联合分布律和边缘分布律

P(X=2,Y=2)=1/8

P(X=2)=1/4,P(Y=2)=13/48,它们的乘积P(X=2)P(Y=2)=(1/4)*(13/48)=13/192≠1/8

所以X,Y肯定不是相互独立的随机变量。

  • 例:判断X,Y是否相互独立

设(X,Y)的概率密度如下,判断X,Y是否相互独立

作图

X的边缘概率密度函数为6dy=6dy=6(x-x^2)    (0≤x≤1,其他为0)

Y的边缘概率密度函数为6dx=6dx=6(√y-y)    (0≤y≤1,其他为0)

=36(x-x^2)(√y-y)≠f(x,y),所以X,Y不是相互独立的随机变量。

两个随机变量的函数分布

小王和老婆小白通过第5轮PK抽牌来决定谁洗盘子,小王和小白各拿一副扑克牌,分别从自己扑克牌中的红桃A-红桃4中抽取一张,谁牌号小谁就洗盘子,如果牌号相同则重新来过。1、两人抽到的最大牌号小于等于3的概率;2、最小牌号小于等于2的概率。

1、设随机变量X,Y分别表示小王和小白抽到的牌号。很明显X,Y相互独立。我们设Z=max{X,Y},则F(z)=P(Z≤z)=P(X≤z,Y≤z)=P(X≤z)P(Y≤z)=(z)(z)

则F(3)=(3)(3)=(3/4)*(3/4)=9/16

2、我们设Z=min{X,Y},则F(z)=P(Z≤z)=1-P(Z>z)=1-P(X>z,Y>z)=1-P(X>z)P(Y>z)=1-(1-P(X≤z))(1-P(Y≤z))=1-(1-(z))(1-(z))

则F(2)=1-(1-(2))(1-(2))=1-(1-1/2)(1-1/2)=3/4

两个随机变量的函数分布(离散型)

  1. 离散型的分布律求法
    1. 根据每个(x,y)二维随机变量计算z的值;
    2. 对于每个z值,找出分布律表中对应(x,y)的概率,即为z值的概率;如果一个z值,对应多个(x,y),将这些(x,y)概率相加,即为z值概率。z的分布律求出来了,求解分布函数就很容易了。
  2. 特殊函数的分布,若X,Y相互独立,Z=max{X,Y}分布函数:,Z=min{X,Y}分布函数:
  • 例:设离散型随机变量X与Y的分布律如下,且X与Y相互独立,求Z=X+Y的分布律

由X与Y相互独立,可知

则P(X=0,Y=0)=1/6

P(X=0,Y=1)=1/3

P(X=1,Y=0)=1/8

P(X=1,Y=1)=1/4

P(X=2,Y=0)=1/24

P(X=2,Y=1)=1/12

由于Z=X+Y,则Z的取值去重后为0、1、2、3

则P(Z=0)=P(X=0,Y=0)=1/6

P(Z=1)=P(X=0,Y=1)+P(X=1,Y=0)=1/3+1/8=11/24

P(Z=2)=P(X=1,Y=1)+P(X=2,Y=0)=1/4+1/24=7/24

P(Z=3)=P(X=2,Y=1)=1/12

则Z的分布律为

Z 0 1 2 3
P 1/6 11/24 7/24 1/12
  • 例:设离散型随机变量X与Y的分布律如下,X与Y相互独立,求Z=max{X,Y}分布律

X分布函数

Y分布函数

可得

小王和老婆小白饭后又换了一个新游戏玩法来决定谁洗盘子,小王在电脑中写了一个小程序Math.random()来产生[0,1]之间的随机数,他俩分别摇号一次,看谁的号码小,谁就洗盘子,求小白洗盘子的概率。

我们假设小王摇的号为随机变量X,小白摇的号为随机变量Y,这里X,Y∈[0,1],且都是连续型随机变量。设Z=Y/X,如果小白洗盘子,则概率转变成P(Z<1),我们知道Z的分布函数(z)=P(Z≤z)=P(Y/X≤z),现在已知的是X,Y的联合概率密度函数f(x,y),则P(Y/X≤z)=f(x,y)dxdy

我们来看一下该二重积分的积分区域Y/X≤z是什么样的,当z>0的时候

当z<0的时候

这里不论z是哪种情况,当X>0的时候,Y≤zX,当X<0的时候,Y≥zX,所以积分区域为上面两个图的阴影部分。则我们要积分的话就需要进行分段积分。

(z)=P(Y/X≤z)=f(x,y)dxdy=f(x,y)dydx+f(x,y)dydx

这个是概率分布函数,现在我们要求Z的概率密度函数,就是对(z)求导。

(z)=d(f(x,y)dy)/dz•dx+d(f(x,y)dy)/dz•dx=(0-xf(x,zx))dx+(xf(x,zx)-0)dx=|x|f(x,zx)dx

则P(Z<1)=|x|f(x,zx)dx=x^2/2=1/2,由结果可知,老婆小白洗盘子的概率为1/2,他们机会是均等的。

两个连续型随机变量的常用函数的分布

  1. Z=X+Y概率密度函数:
  2. Z=XY概率密度函数:
  3. Z=Y/X概率密度函数:
  • 例:Z=X+Y概率密度函数:,已知(X,Y)的联合概率密度函数如下,Z=X+Y,求

将f(x,y)转换成f(x,z-x)有

画图可得积分区域为阴影部分

3xdx,当0<z≤1时,3xdx=3x^2/2=9z^2/8

当1<z≤2时,3xdx=3x^2/2=(3/2)(1-(1/4)z^2)

随机变量的数字特征

数学期望

小王和朋友小张闲来下象棋,他俩水平相当,按五局三胜制定输赢。他们每人各出50元赌金押桌子上,赢的人可拿走全部赌金。前三局战果为,小王赢2局,小张赢1局。小王眼看胜利在握,突然老婆小白来电话叫他赶紧回家吃饭,妻管严的小王不得不赶紧回家,结束赌局。请问这个钱该如何分比较合适?

这里我们已知小王已经赢了两局。因为小王和小张水平相当,还剩下的两局中,我们来看一下可能的结果

第四局 第五局

这里表述的是谁可以获胜,通过所有可能的结果,我们可以看到小王获胜的可能性为3/4,小张获胜的可能性为1/4。以X表示小王获得赌金的概率分布律就为

X 100 0
P 3/4 1/4

则小王获得的钱数应该为100*3/4+0*1/4=75元,这个我们在数学上称为数学期望,它实际上就是均值,而概率就作为权值(权重)。

随机变量的数学期望

一、离散型及连续型随机变量的数学期望

离散型:

连续型:(f(x)为X概率密度函数)

二、一维随机变量的函数的数学期望(设随机变量Y=g(X))

离散型:

连续型:

三、多维随机变量的函数的数学期望(设随机变量Z=(X,Y))

离散型:

连续型:

数学期望本质即为加权平均值,其权值为分布律(离散型)或概率密度(连续型),故数学期望也称为均值。求一维或多维离散型随机变量的函数的数学期望,先求其函数的分布律,再按数学期望定义求解即可;求一维或多维连续型随机变量的函数的数学期望,直接将定义式里x替换成g(x)或g(x,y)直接计算定积分即可;

数学期望性质

  1. E(c)=c        (c为常数,即常数的数学期望是它本身)
  2. [齐次性]    E(cX)=cE(X)    (c为常数)
  3. [可加性]    E(X+Y)=E(X)+E(Y)
  4. 设X,Y相互独立,则E(XY)=E(X)E(Y)
  5.     (许瓦尔兹不等式)
  • 例:已知X分布律如下
  1. 求X数学期望;
  2. 求Y=X^2的数学期望

1,E(X)=(-2)*0.2+(-1)*0.1+0*0.1+1*0.3+2*0.3=0.4

2,已知X的分布律可得Y的分布律如下

Y 0 1 4
P 0.1 0.4 0.5

则E(Y)=0*0.1+1*0.4+4*0.5=2.4

  • 例:设随机变量X的概率密度如下,求X的数学期望及Y=2X-1的数学期望

1、=2x^2dx=(2/3)x^3=2/3

2、=(2x-1)f(x)dx=2(2x-1)xdx=[(4/3)x^3-x^2]=1/3

这里我们发现Y=2X-1是一个线性函数,根据数学期望的齐次性及可加性,则E(Y)=E(2X-1)=E(2X)-E(-1)=2E(X)-1=2*(2/3)-1=1/3,这里当且仅当函数为线性关系时才可以使用,如果是非线形关系,则无法使用。

  • 例:设随机变量(X,Y)的概率密度如下,求E(X,Y)

E(X,Y)=xy(1/π)dxdy

我们设该圆的半径为r,则x=rcosθ,y=rsinθ,这里θ∈(0,2π),r∈(0,1)

则E(X,Y)=xy(1/π)dxdy=(1/π)dθrcosθrsinθrdr=(1/π)sinθcosθdθr^3dr=(1/(4π))sinθcosθdθ=(1/(8π))sin2θdθ=-(1/(16π))cos2θ=0

  • 例:设随机变量X,Y的概率密度分别如下,且X,Y相互独立,求E(XY)

=2e^(-2x)dx=-e^(-2x)=1

=4e^(-4y)dy=-e^(-4y)=1

根据独立性,E(X,Y)=E(X)E(Y)=1

方差

之前我们在讲正态分布的时候讲了小王公司所有女员工身高的范围

我们设不同的身高分别为X1、X2、X3.....Xn,而身高的概率(频率)分别为P1、P2、P3...Pn,则全部身高的数学期望就为E(X)=X1P1+X2P2+X3P3+...+XnPn

那么任意一个身高X1到均值E(X)的距离就为|X1-E(X)|,我们以该距离为样本点,则各个样本点的概率(频率)依然为P1、P2、P3...Pn。则该距离的数学期望就为|X1-E(X)|P1+|X2-E(X)|P2+|X3-E(X)|P3+...|Xn-E(X)|Pn=E(|X-E(X)|),我们注意到该式中都有一个绝对值,这个绝对值使用不太方便,所以我们直接去掉绝对值,直接平方。也就是说我们不直接来求距离,而是求距离的平方,我们求距离的均值和求距离平方的均值是一个含义。则式子变成了如下。

(X1-E(X))^2P1+(X2-E(X))^2P2+(X3-E(X))^2P3+...+(Xn-E(X))^2Pn=E[(X-E(X))^2],这个数学期望表征样本点的分散程度,我们称该数学期望为方差

方差

  1. 方差定义:称为标准差
    1. 离散型随机变量方差定义:
    2. 连续型随机变量方差定义:
  2. 重要公式:
  3. 方差性质:
    1. ,c为常数
    2. ,特别的,如果X,Y相互独立,则

期望反映整体平均水平,而方差反映距平均水平的偏离程度称为X的标准化随机变量

  • 例:已知X的概率密度函数如下,E(X)=0.5
  1. 求常数A,B
  2. 已知Y=X^2,求D(Y)

1,由f(x)dx=1知(Ax^2+Bx)dx=1    => (A/3)x^3+(B/2)x^2=1    => A/3+B/2=1

=0.5    => x(Ax^2+Bx)dx=0.5    => (A/4)x^4+(B/3)x^3=A/4+B/3=0.5

由以上方程联立,可得A=-6,B=6

2,D(Y)=E(Y^2)-(E(Y))^2=E(X^4)-(E(X^2))^2

E(X^4)=x^4f(x)dx=x^4(-6x^2+6x)dx=(-6/7)x^7+x^6=1/7

E(X^2)=x^2f(x)dx=x^2(-6x^2+6x)dx=(-6/5)x^5+(6/4)x^4=3/10

D(Y)=E(X^4)-(E(X^2))^2=1/7-(3/10)^2=37/700

协方差及相关系数

现在我们来推导一下方差的重要公式以及方差性质的第三条

=E[X^2-2E(X)X+(E(X))^2],根据数学期望的齐次性和可加性,得

E[X^2-2E(X)X+(E(X))^2]=E(X^2)-2E(X)E(X)+(E(X))^2=E(X^2)-(E(X))^2,重要公式得证

D(X+Y)=E((X+Y)^2)-(E(X+Y))^2=E(X^2+2XY+Y^2)-(E(X)+E(Y))^2=E(X^2)+2E(XY)+E(Y^2)-((E(X))^2+(E(Y))^2+2E(X)E(Y))=E(X^2)-(E(X))^2+E(Y^2)-(E(Y))^2+2(E(XY)-E(X)E(Y))=D(X)+D(Y)+2(E(XY)-E(X)E(Y))

=2E(XY-XE(Y)-YE(X)+E(X)E(Y))=2(E(XY)-E(Y)E(X)-E(X)E(Y)+E(X)E(Y))=2(E(XY)-E(X)E(Y))

则方差的第三条性质得证

我们称之为X,Y的协方差

协方差

  1. 协方差定义:
  2. 协方差计算方法:

法一(直接按定义计算,不推荐)

离散型:

连续型:

法二(公式法,强烈推荐)

协方差及相关系数性质

  1. 可加性:
  2. 齐次性:
  3. 相关系数定义:

反映了X,Y之间线性相关程度,易知,如果=0,称X,Y不相关;称X,Y完全正(负)相关;=0是X,Y相互独立的必要不充分条件,如果X,Y服从二维正态分布,则X,Y不相关是X,Y相互独立的充要条件。这里相关不相关指的是线性相关和线性不相关,有关线性相关不相关请参考线性代数整理 里的线性相关和线性无关。线性无关不代表随机变量相互独立

标准差与方差是描述一维数据的,当存在多维数据时,我们通常需要知道每个维度的变量中间是否存在关联。协方差就是衡量多维数据集中,变量之间相关性的统计量。比如说,一个人的身高与他的体重的关系,这就需要用协方差来衡量。如果两个变量之间的协方差为正值,则这两个变量之间存在正相关,若为负值,则为负相关。

相关系数示意图

图一的关系是一种线性关系Y=aX+b,a>0;图二的关系也是一种线性关系Y=aX+b,a<0;图三和图四就是一种无完全相关的关系,是一种不完全的线性关系。

  • 例:X,Y联合分布律如下,求cov(X,Y)

X的边缘分布律为

X 0 1
P 1/2 1/2

则E(X)=0*(1/2)+1*(1/2)=1/2

Y的边缘分布律为

Y 0 1
P 7/12 5/12

则E(Y)=0*(7/12)+1*(5/12)=5/12

令Z=XY,则Z的分布律为

Z 0 1
P 5/6 1/6

则E(XY)=0*(5/6)+1*(1/6)=1/6

Cov(X,Y)=E(XY)-E(X)E(Y)=1/6-(1/2)*(5/12)=-1/24

  • 例:,且X,Y相互独立,求的相关系数

Cov(Z1,Z2)=Cov(αX+ßY,αX-ßY)=E[(αX+ßY)(αX-ßY)]-E(αX+ßY)E(αX-ßY)=E(α^2X^2-ß^2Y^2)-(αE(X)+ßE(Y))(αE(X)-ßE(Y))=E(α^2X^2-ß^2Y^2)-(α^2(E(X))^2-ß^2(E(Y))^2)=α^2(E(X^2)-(E(X))^2)-ß^2(E(Y^2)-(E(Y))^2)=(α^2-ß^2)δ^2

D(Z1)=D(αX+ßY)=α^2D(X)+ß^2D(Y)=(α^2+ß^2)δ^2

D(Z2)=D(αX-ßY)=α^2D(X)+(-ß)^2D(Y)=(α^2+ß^2)δ^2

=(α^2-ß^2)δ^2/(√((α^2+ß^2)δ^2)√((α^2+ß^2)δ^2))=(α^2-ß^2)/(α^2+ß^2)

矩协方差矩阵

在这个公式中,我们知道D(X)叫做方差,E(X)叫数学期望,那么叫什么呢?我们并没有给出一个定义,那么现在我们给它定义为。而被称为二阶原点矩。

矩与协方差矩阵的定义

一、矩相关定义

  1. k阶原点矩:,如果k=1,则一阶原点矩就是数学期望。
  2. k阶中心矩:,如果k=2,则E[(X-E(X))^2]其实就是方差。
  3. k+l阶原点矩:
  4. k+l阶中心矩:

二、协方差矩阵定义

为n维随机变量,

由于Cov(Xi,Xj)=Cov(Xj,Xi),所以这里是一个对称矩阵,有关对称矩阵请参考线性代数整理(三) 中对称矩阵与矩阵的SVD分解。在对角线的位置上,有Cov(Xi,Xi)=D(Xi),所以对角线都是该随机变量的方差。

当变量多了,超过两个变量了。那么,就用协方差矩阵来衡量这么多变量之间的相关性

  • 例:X,Y联合分布律如下,求X,Y的协方差矩阵

之前我们知道E(X)=1/2,E(Y)=5/12,Cov(X,Y)=-1/24,现在X,Y的协方差矩阵为

现在知道了Cov(X,Y),只需要求D(X)和D(Y)就可以了

X的边缘分布律为

X 0 1
P 1/2 1/2

=[0^2*(1/2)+1^2*(1/2)]-(1/2)^2=1/4

Y的边缘分布律为

Y 0 1
P 7/12 5/12

D(Y)=E(Y^2)-(E(Y))^2=[0^2*(7/12)+1^2*(5/12)]-(5/12)^2=35/144

所以最终该协方差矩阵为

大数定律及中心极限定理

切比雪夫不等式

之前我们在说正态分布的时候,知道无论随机变量X取值为何值,都有大量的值集中的分布在均值μ的附近,即集中分布在数学期望E(X)的附近。那么就会有大量的值到均值的距离|X-E(X)|<某数ε。反过来说,就是有少量的值满足|X-E(X)|≥ε,即边上的离均值远的值,这个概率P(|X-E(X)|≥ε)较小,存在一个上界。

这里X是一个连续型随机变量,我们知道,若X在[a,b]之间,则它的概率为P(a≤x≤b)=f(x)dx。那么P(|X-E(X)|≥ε)中,X的范围就为

那么此时P(|X-E(X)|)就为,简写为,我们知道这个概率存在一个上界。

由于|X-E(X)|≥ε,则|X-E(X)|/ε≥1,两边平方,则有(X-E(X))^2/ε^2≥1,这样我们就去掉了绝对值。那么

由于连续型随机变量X方差的公式为

=D(X)/ε^2,由此我们可以得出P(|X-E(X)|)的上界为D(X)/ε^2,这就是切比雪夫不等式。

切比雪夫不等式

定理:设随机变量X数学期望E(X),方差D(X),则对任意正数ε,下述不等式成立

等价式为

切比雪夫不等式意义:随机变量X分布未知,仅仅知道其期望方差,就可以估算上限值,在概率估算方面给予了重要意义。

  • 例:已知随机变量X的数学期望E(X)=100,方差D(X)=10,估计X落在(80,120)内的概率。

P(80<X<120)=P(-20<X-E(X)<20),这里E(X)=100

=P(|X-E(X)|<20),所以ε=20

≥1-D(X)/ε^2=1-10/20^2=39/40

  • 例:设随机变量X~U(0,1),用切比雪夫不等式估计

均匀分布的概率密度函数为

均匀分布的数学期望:==x^2/[2(b-a)]=b^2/[2(b-a)]-a^2/[2(b-a)]

根据平方差公式a^2-b^2=(a+b)(a-b),则有b^2/[2(b-a)]-a^2/[2(b-a)]=(a+b)/2

则这里均匀分布的数学期望E(X)=(0+1)/2=1/2

均匀分布的方差=-[(a+b)/2]^2=x^3/[3(b-a)]-(a+b)^2/4=(b^3-a^3)/[3(b-a)]-(a+b)^2/4

根据立方差公式,则有(a^2+ab+b^2)/3-(a^2+2ab+b^2)/4=(b-a)^2/12

则这里均匀分布的方差D(X)=(1-0)^2/12=1/12

=P(|X-E(X)|≤ε),这里E(X)=1/2,ε=1/√3

P(|X-E(X)|≤ε)≥1-D(X)/ε^2=1-(1/12)^2/(1/3)=3/4

  • 例:某城市供电网有10000盏灯,每盏灯开灯概率为0.7,且彼此开闭与否相互独立,试用切比雪夫不等式估算夜晚同时开灯数在6800到7200之间的概率。

随机变量X表示开灯数,单看一盏灯,它要么开,要么关,有10000盏灯,所以这是一个独立重复的贝努力实验。所以X符合二项分布X~b(10000,0.7)

根据二项分布的概率=*0.7^k*0.3^(10000-k)

则P(6800≤X≤7200)=*0.7^k*0.3^(10000-k)

这样计算非常麻烦,二项分布属于离散型随机变量,数学期望=np=10000*0.7=7000

二项分布的方差

故D(X)=10000*0.7*0.3=2100

则P(6800≤X≤7200)=P(-200≤X-7000≤200)=P(|X-E(X)|≤ε),这里E(X)=7000,ε=200

P(|X-E(X)|≤ε)≥1-2100/200^2=379/400

大数定理

概率的定义:在相同的条件下,共进行了n次试验,事件A发生的次数,称为的频数,/n称为事件A发生的频率。随着n逐渐增大,频率/n逐渐稳定在某一个值p,则数值p称为事件A在该条件下发生的概率。

概率特点:

  1. 非负性:
  2. 规范性:
  3. 有限可加性:

该定义难以计算,事件随机性强,求无穷下极限所得概率是很困难的。

这个概率定义其实就是大数定律。

伯努利大数定理

依概率收敛定义:若对于任意正数ε有随机变量序列满足。则称X依概率收敛于α

这里收敛的意思为若Xn -> a表示 ε>0,当∃ N,当n>N,有|Xn-a|<ε,称Xn收敛于a

贝努力大数定理:对于n次独立重复试验,随机变量X~B(n,p),当n充分大时,其频率近似依概率收敛于其概率,即

贝努力大数定理含义:在n次独立重复试验中,当实验次数n足够大时,可以用事件发生的频率来估计其每次发生的概率。该定理反映频率稳定性,即概率是频率极限

  • 某天春色正好,小王和老婆小白去打电竞,小白玩一个电竞射击游戏,进行了1000次左右的射击,命中靶312次,试估计小白在每次射击中命中靶的概率。

由题意知小白中靶的频数为312,总数为1000,则频率=312/1000=0.312。由贝努力大数定理知概率约为0.312。

大数定律(2)

设随机变量相互独立,且具备相同数学期望值,设E()=μ,则对任意正数ε有:

,这里需要注意的是设Z==(X1+X2+...+Xn)/n,则E(Z)=E((X1+X2+...+Xn)/n)=(E(X1)+E(X2)+...+E(Xn))/n=μ,但Z≠μ,Z只是依概率收敛于μ。

注:

  1. 上式说明,当n很大时,多个随机变量的算术平均会逼近它们各自的数学期望μ,所以,在不知确切分布情形下,可取多次观察的算术平均值,作为E()的精确估计
  2. 当上述条件不但满足独立,且满足同分布时,此公式也命名为辛欣大数定律

这里满足同分布,就表示不仅它们的均值μ相同,而且方差也是相同的,我们令方差D()=δ^2,D(Z)=D((X1+X2+...+Xn)/n)=(D(X1)+D(X2)+...+D(Xn))/n^2=nδ^2/n^2=δ^2/n。根据切比雪夫不等式,有P(|Z-E(Z)|<ε)≥1-D(Z)/ε^2,即为P(|Z-μ|<ε)≥1-δ^2/(nε^2)。我们知道概率一定是小于等于1的,所以P(|Z-μ|<ε)≤1,而当n->+∞的时候,1-δ^2/(nε^2)=1,则1≤P(|Z-μ|<ε)≤1,由夹逼准则可知,P(|Z-μ|<ε)=1。

  • 第二天,小王和老婆小白又去人民公园耍,路边发现一个转盘抽奖游戏,该转盘被分成8等份,摇到哪个数字,就会获得对应的奖金(如果压到边线就按金额小的一边计),每次抽奖参与费24元。小王第一次抽中40元,他很高兴,于是继续抽,第二次抽中20元(亏4元),第三次抽中15元(亏9元),小王很不甘心,赌性大发,想一直抽下去。如果小王玩了10次,你觉得小王最终盈利可能性大还是输的可能性大?

表示小王第i次抽中的钱数,已知X1=40,X2=20,X3=15。如果小王需要盈利,则S=-24*10>0。

X1、X2...X10服从独立同分布,分布律如下(i=1到10)

5 10 15 20 25 30 35 40
P 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8

则数学期望E()=(5+10+15+20+25+30+35+40)/8=(5+40)*8/(2*8)=22.5

根据大数定律,在不知确切分布情形下,可取多次观察的算术平均值,作为E()的精确估计,这里算术平均值就为/10,又S=10*(/10-24),则这里/10可以用数学期望E()来代替,则S=10*(/10-24)≈10*(22.5-24)=-15<0,所以输的可能性更大。

大数定理总结

大数定理 通俗含义
贝努力大数定理 大量独立重复试验,可用事件A出现频率估计其发生概率
辛欣大数定理 大量具有相同数学期望的独立试验,可用n次试验结果均值,估计其整体均值(即期望)

中心极限定理(一维随机变量情形)

当实验次数n相当大时,随机变量X近似服从正态分布X~N(E(X),D(X))。即对于任何分布的随机变量X,当重复大量次试验,其分布都逼近正态分布。由此推之,当实验次数n相当大时,随机变量X的标准化函数

近似服从标准正态分布,即

棣莫弗-拉普拉斯定理

(独立重复贝努力试验,二项分布)设随机变量X服从二项分布,即X~b(n,p),数学期望E(X)=np,方差D(X)=np(1-p),则当n很大时,

  • 例:小王开了一家保险公司,保险政策如下,若一年中参加人寿意外伤亡率为0.002,现有2500人参加,每人缴纳保险费120,若意外伤亡,公司赔付20000,求问小王公司亏本概率。

 

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
0 评论
0 收藏
0
分享
返回顶部
顶部