文档章节

2 数据的概括性度量

o
 osc_f6s7vbbf
发布于 2019/11/10 22:29
字数 1107
阅读 8
收藏 0

「深度学习福利」大神带你进阶工程师,立即查看>>>

阅读材料为 第四章。

开头先来一个总体内容的概括好了:

集中趋势:众数、中位数、平均数

离散程度:异众比率、四分位差、极差、平均差、方差或标准差、离散系数

分布的形状:偏态系数、峰态系数

 

集中趋势:

分类数据:

众数:一般情况下,只有在数据量较大的时候众数才有意义。

众数可能不存在,也可能有多个。

顺序数据:

分位数、中位数

中位数的位置:(n+1)/2

数值型数据:

平均数:简单平均数、加权平均数、几何平均数

简单平均数很简单就不说了。

根据分组数据计算的平均数称为加权平均数;工作中我们算1-9月的店均销售就是采用加权平均的,因为每个月的店铺数会有变化。用1-9月的销售额之和除以1-9月的店铺数之和。

几何平均数的主要应用是计算现象的平均增长率(当数据出现零值或负值时不宜使用)。

当所平均的各比率数值相差不大时,算术和几何平均的结果差别不大。

 

众数、中位数、平均数之间的关系:

当数据对称分布时,三者相等;

当数据左偏分布时,平均数被拉向左边,中位数也略偏左边,因此,平均数<中位数<众数

当数据右偏分布时,平均数被拉向右边,中位数也略偏右边,因此,众数<中位数<平均数

三者的应用场合:

众数:数据量大时适用;分类数据。

中位数:不受极端值影响,因此偏态分布时适用;顺序数据。

平均数:受极端值影响大,因此数据对称分布时适用;数值型数据。

 

集中趋势和离散程度之间的联系:

数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差。

离散程度的测度值有:

异众比率(分类数据)

四分位差(顺序数据;两个四分位数的差,反映了中间50%数据的离散情况)

方差&标准差(常用,有量纲)&极差(简单粗暴,极易受极端值影响)&平均差(实际意义清楚,准确反映全体数据的离散情况)

离散系数:用于对比不同水平的不同样本的离散情况(标准差除以平均值)。

 

平均值&标准差铸造的终极武器:标准分数

计算方法:(数据-平均值)/标准差

用途:

①可以测度每个数据在该组数据中的相对位置

②可以用它来判断一组数据汇总是否有离群数据

③我们在对多个具有不同量纲的变量进行处理时,常常用标准分数对各变量进行标准化处理

---->经验法则:适用于对称分布的数据。三个数分别是 68%,95%,99%

---->切比雪夫不等式:适用于任何分布的数据。三个数分别是 75%,89%,94%

 

离散系数(相对离散程度)

计算方法:标准差除以平均值。(当平均数接近0时,离散系数的值趋于增大,此时必须慎重解释)

主要用来比较不同样本数据的离散程度。

 

数据分布形状的度量:偏态与峰态

偏态:若数据对称分布,则偏态系数为0;若大于1或小于-1,为高度偏态分布;若在0.5到1 或 -1到-0.5之间,为中等偏态分布。

峰态:若数据正态分布,则峰态系数为0;若大于0为尖峰分布,数据分布集中;若小于0为扁平分布,数据分布分散。

 

最后总结一下与以上概念相关的excel函数:

1.众数:mode(),若不含重复数据,会返回错误值

2.中位数:median()

3.四分位数:quartile.inc(array,quart)

quart=0,返回最小值;quart=1,返回第一个四分位数;quart=2返回中位数;quart=3,返回第二个四分位数;quart=4返回最大值

4.算术平均数:average()

5.几何平均数:geomean()

6.平均差:avedev()

7.标准差:stdev()

8.偏态系数:skew()

9.峰态系数:kurt()

 

 

 

 

 

 

 

 

 

 

 

 

o
粉丝 0
博文 500
码字总数 0
作品 0
私信 提问
加载中
请先登录后再评论。
开源数据访问组件--Smark.Data

Smark.Data是基于Ado.net实现的数据访问组件,提供基于强类型的查询表达式进行灵活的数据查询,统计,修改和删除等操作;采用基于条件驱动的操作模式,使数据操作更简单轻松;内部通过标准SQL...

泥水佬
2013/03/12
2.6K
0
数据中心生命周期管理--Foreman

Foreman是一个集成的数据中心生命周期管理工具,提供了服务开通,配置管理以及报告 功能,和Puppet Dahboard一样,Foreman也是一个Ruby on Rails程序.Foreman和 Dashboard不同的地方是在于,Fore...

匿名
2012/10/24
1.5W
0
Python数据分析工具包--Pandas

Python Data Analysis Library 或 pandas 是连接 SciPy 和 NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集...

匿名
2012/10/30
2.1W
2
轻量级数据存储服务--LLServer

LLServer是本人基于libevent和leveldb这两个开源软件,开发的轻量级数据存储服务器软件,借助libevent高效网络接口实现对leveldb的访问封装。 其支持http协议和memcached协议。也就是可以通过...

代震军
2012/11/06
1K
0
ORM数据访问组件--ELinq

ELinq 是一个轻量简单易用的开源Linq ORM数据访问组件,支持Nullable类型和枚举类型,对Linq的谓词提供了完美的支持,旨在让绝大部份的主流数据库都使用 Linq 来进行程序开发,让开发人员访问...

netcasewqs
2012/12/17
2K
2

没有更多内容

加载失败,请刷新页面

加载更多

如何查找Linux中所有777权限的文件?

正确的设置文件权限是Linux系统管理中最关键的部分。一个权限为777的文件对每个人都是开放的,可以读和写。任何登录到系统的用户都可以对这个文件进行写入。这对您的服务器系统是具有很大的安...

osc_3grma05a
6分钟前
0
0
信越KBM-403--高质量复合材料

     信越KBM-403硅烷偶联剂是由有机物以及硅构成的化合物。硅烷偶联剂的分子中,具有能够与无机材料进行化学性结合的,和能够与有机材料进行化学性结合的两种以上的不同的反应基团。  ...

feiyoufei
6分钟前
0
0
Spring定时任务 2步轻松搞定

这短时间工作需求中涉及到Spring定时任务,今天来整理一下 Spring定时任务其实很简单,只需要两步,就好像把大象放进冰箱需要两步一样 1,打开冰箱门 2,把大象放进去 同理Spring两步编码实现定时...

lixingsikao
6分钟前
26
0
nginx启用域名访问,禁止ip直接访问

最近为公司客户搭建一套ToB的平台,该平台的部署机器在客户那边(无法直接登录,需要通过***访问)。为了方便从外部直接访问平台的web页面,我通过frps工具反向代理到我一台公有云机器,这样...

osc_qvtw8r10
7分钟前
0
0
快速搭建一台私有化KMS激活服务器

KMS是批量激活服务器(Key Management Server)的英文缩写,从Windows Vista开始,Microsoft使用多次激活密钥(MAK, Multiple Activation Keys)和密钥管理服务器(KMS, Key Management Ser...

osc_wfhwwd4t
8分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部