文档章节

小马哥课堂-统计学-方差

o
 osc_4nmshwhm
发布于 2018/08/06 16:07
字数 789
阅读 5
收藏 0
mu

钉钉、微博极速扩容黑科技,点击观看阿里云弹性计算年度发布会!>>>

Variance(方差)

衡量随机变量或一组数据的 离中 的离散程度

引入例子

假设有两组总体:A={2,2,3,3}, B={0,0,5,5}

$$\mu_A=\frac {2+2+3+3}{4}=2.5$$

$$\mu_B=\frac{0+0+5+5}{4}=2.5$$

显然,$\mu$并不能反映这两组数据集的差异。

数据集A:$ Var[A]=\frac { \displaystyle \sum_{i=1}^N (x_i - \mu)^2}{N}=\frac{0.25 \cdot 4}{4}=0.25$

i $x_i$ $\mu$ $x_i-\mu$ $(x_i-\mu)^2$
1 $x_1=2$ 2.5 -0.5 0.25
2 $x_1=2$ 2.5 -0.5 0.25
3 $x_1=3$ 2.5 0.5 0.25
4 $x_1=3$ 2.5 0.5 0.25

数据集B:$ Var[B]=\frac { \displaystyle \sum_{i=1}^N (x_i - \mu)^2}{N}=\frac{6.25 \cdot 4}{4}=6.25$

i $x_i$ $\mu$ $x_i-\mu$ $(x_i-\mu)^2$
1 $x_1=0$ 2.5 -2.5 6.25
2 $x_1=0$ 2.5 -2.5 6.25
3 $x_1=5$ 2.5 2.5 6.25
4 $x_1=5$ 2.5 2.5 6.25

从上面两组数据集可以看出,尽管两组数据集 期望 相同,但是,方差并不相同。数据集A 表现得更集中,而数据集B 表现得相对分散。

定义

In probability theory and statistics, variance is the expectation of the squared deviation of a random variable from its mean. Informally, it measures how far a set of (random) numbers are spread out from their average value. Variance has a central role in statistics, where some ideas that use it include descriptive statistics, statistical inference, hypothesis testing, goodness of fit, and Monte Carlo sampling. Variance is an important tool in the sciences, where statistical analysis of data is common. The variance is the square of the standard deviation, the second central moment of a distribution, and the covariance of the random variable with itself, and it is often represented by $\displaystyle \sigma ^{2}$,$\displaystyle s^{2}$ , or $\displaystyle \operatorname {Var} (X)$.

在概率论和统计学中,方差的定义: 随机变量与期望的差 的平方值 的期望,衡量随机变量与其期望的偏离程度。

表示符号

$\displaystyle \sigma ^{2}$:一般表示总体的方差

$\displaystyle s^{2}$: 一般表示抽样分布的方差

$\displaystyle \operatorname {Var} (X)$

公式

The variance of a random variable $\displaystyle X$ is the expected value of the squared deviation from the mean of $\displaystyle X$ , $\displaystyle \mu =\operatorname {E} [X]$:

$$\displaystyle \operatorname {Var} (X)=\operatorname {E} [(X-\mu)^2]$$

$$\displaystyle \begin{array}{rcl} \operatorname {Var} (X)&=&\operatorname {E} [(X-\operatorname{E}[X])^2] \ &=&\operatorname {E} [X^2-2X\operatorname{E}[X] +\operatorname{E}[X]^2] \ &=& \operatorname{E}[X^2]-2\operatorname{E}[X]\operatorname{E}[X]+\operatorname{E}[X]^2 \ &=& \operatorname{E}[X^2]-\operatorname{E}[X]^2 \end{array} $$

对于离散型随机变量,方差的公式:

If the generator of random variable $\displaystyle X$ is discrete with probability mass function $\displaystyle x_{1}\mapsto p_{1},x_{2}\mapsto p_{2},\ldots ,x_{n}\mapsto p_{n}$ then

$$\displaystyle Var(X)=\sum_{i=1}^{n}p_i\cdot(x_i-\mu)^2$$

$$\displaystyle \mu = \sum_{i=1}^np_ix_i$$

对于连续型随机变量,方差的公式:

$$\displaystyle Var(X)=\sigma^2=\int (x-\mu)^2f(x)dx = \int x^2 f(x)dx - \mu^2$$

$$\displaystyle \mu=\int xf(x)dx$$

#!/usr/bin/env python3                       
#-*- coding:utf-8 -*-
#############################################
#File Name: variance.py
#Brief:
#Author: frank
#Email: frank0903@aliyun.com
#Created Time:2018-08-06 22:40:11
#Blog: http://www.cnblogs.com/black-mamba
#Github: https://github.com/xiaomagejunfu0903/statistic_notes
#############################################
import numpy as np
import matplotlib.pyplot as plt

A = [2, 2, 3, 3]
B = [0, 0, 5, 5]

mean_A = np.mean(A)
print("mean_A:{}".format(mean_A))
mean_B = np.mean(B)
print("mean_B:{}".format(mean_B))

var_A = np.var(A)
print("var_A:{}".format(var_A))
var_B = np.var(B)
print("var_B:{}".format(var_B))

y_A = [0,0,0,0]
plt.scatter(A,y_A,c='r',s=25,marker='o')
plt.scatter(B,y_A,c='b',s=25,marker='*')
plt.plot(var_A, 2, 'k+')
#A_handle, = plt.plot((var_A,mean_A), (2,2))
plt.plot((var_B), (1), 'gD')
#A_handle, = plt.plot((var_B,mean_B), (1,1))

plt.plot((mean_A,mean_A),(0.0,2.5))#均值线

plt.plot((2,mean_A),(0.25,0.25),'peru')
plt.plot((3,mean_A),(0.50,0.50),'seagreen')

plt.plot((0,mean_B),(1.5,1.5),'magenta')
plt.plot((5,mean_B),(2.0,2.0),'hotpink')

plt.grid(True)
plt.show()

o
粉丝 0
博文 500
码字总数 0
作品 0
私信 提问
加载中
请先登录后再评论。
小马哥课堂-统计学-标准误差

在小马哥课堂-统计学-中心极限定理一节的例子中提到一个标准误差的概念,有同学对此不清楚,所以这里单独写一节,来对standard error进行阐述,希望能大家能有一个直观的理解。 Standard err...

osc_yqnlq679
2018/08/09
2
0
小马哥课堂-统计学-t分布

T distribution 定义 在概率论和统计学中,学生t-分布(t-distribution),可简称为t分布,用于根据小样本来估计 呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多...

osc_67z4ojk9
2018/08/17
2
0
小马哥课堂-统计学-置信区间

Confidence interval(置信区间) confidence interval (CI) is a type of interval estimate, computed from the statistics of the observed data, that might contain the true value of an......

osc_r6vi2btf
2018/08/12
2
0
小马哥课堂-统计学-中心极限定理

Central limit theorem(中心极限定理) the central limit theorem (CLT) establishes that, in some situations, when independent random variables are added, their properly normalized ......

osc_k6z4gwqi
2018/08/09
4
0
个人学习-2020 roadmap

个人学习 - 2020 技术 目前已经收集到的优秀的学习资料 !!!!今年再给自己一个目标,学习理财,,挣出我的大机机钱 8k!!! 极客时间购买课程 左耳听风,扩展视野部分看完、 练级部分慢慢...

旺仔没馒头
01/01
0
0

没有更多内容

加载失败,请刷新页面

加载更多

聊聊dubbo-go的AccessLogFilter

序 本文主要研究一下dubbo-go的AccessLogFilter AccessLogFilter dubbo-go-v1.4.2/filter/filter_impl/access_log_filter.go type AccessLogFilter struct {logChan chan AccessLogData}......

go4it
34分钟前
24
0
对服务与工厂感到困惑 - Confused about Service vs Factory

问题: As I understand it, when inside a factory I return an object that gets injected into a controller. 据我了解,当在工厂内部时,我返回一个被注入控制器的对象。 When inside a ...

技术盛宴
51分钟前
19
0
OpenCV开发笔记(六十七):红胖子8分钟带你深入了解特征点暴力匹配(图文并茂+浅显易懂+程序源码)

若该文为原创文章,未经允许不得转载 原博主博客地址:https://blog.csdn.net/qq21497936 原博主博客导航:https://blog.csdn.net/qq21497936/article/details/102478062 本文章博客地址:h...

红模仿_红胖子
今天
24
0
将向量附加到向量[重复] - Appending a vector to a vector [duplicate]

问题: This question already has an answer here: 这个问题已经在这里有了答案: Concatenating two std::vectors 22 answers 连接两个std :: vectors 22个答案 Assuming I have 2 standa......

javail
今天
19
0
获得所有文件夹的大小

有两个工具 https://www.getfoldersize.com/ http://www.uderzo.it/main_products/space_sniffer/index.html...

ethanleellj
今天
18
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部