统计建模的24种应用(第1部分)

2017/05/23 22:50
阅读数 145

6b3cd54f417440f1970a41a9f4691ac5

    在这里,我们讨论统计模型的一般应用情况.不管他们是否源自数据科学,运筹学,工程学,机器学习或统计学.如决策树,logistic回归,贝叶斯模型,马尔可夫模型,数据压缩和特征选择等,我们都不会讨论其具体的算法,相反,我们讨论的框架是每一个使用自己的技术和算法去解决实际生活中的问题.

    下面大部分条目都可以在维基百科里找到,除了我个人写的一些外,我还引用少量来自于维基百科中相应文章的定义和摘要.3

1.空间模型

空间倚赖性是指地理空间内属性的协同作用:在近端位置特征似乎是相关的,要么正相关,要么负相关。在统计学中,空间的依赖性会导致空间自相关问题,例如颞自相关,因为这违反了标准统计技术中各观测值之间相互独立性的假设.

 

2.时间序列

时间序列分析方法大致可分为两类:频域的方法和时域方法。前者包括频谱分析和小波分析,后者包括自相关和交叉相关分析。在时域中,相关分析可以在某种过滤器中使用,这种过滤器类似于一种使用比例相关的方式,凭此,可以减轻在频域中操作的需求.另外,时间序列分析技术可被划分为参数和非参数的方法。参数方法假定基本平稳随机过程有一个特定的结构,这种结构使用少量的参数就可以被描述.(例如,使用一个自回归移动平均模型) 在这些方法中,任务就是评估那些描述随机过程的模型参数。相比之下,非参数方法不需要假设过程中有任何特定的结构,便可明确估计协方差或过程的谱 .时间序列分析方法也可分为线性和非线性,单变量和多变量。

 

3.生存分析

生存分析是统计学的一个分支,它分析发生一个或多个事件的预期持续时间,例如生物有机体的死亡和机械系统的崩溃.本课题在工程上称为可靠性理论或可靠性分析,在经济学中叫做持续时间分析或持续时间模型,在社会学中称为时间历史分析.生存分析试图回答这样的问题:在过去的某个时间中,人口生存的比例是多少?那些幸存者中死亡或失败的比例是多少?死亡或失败的多层原因能够被充分考虑吗?特定情况或特性下,如何提高或降低生存的概率?生存分析模型被统计人员和精算师所使用,同时也被营销人员应用到设计客户流失和留存的模型中.生存模型也被用来预测事件发生的时间(如从变得激进到变成恐怖分子的时间,或一把枪从被购买到被用在一场谋杀案中的时间)或建模和预测衰减.

 

4.细分市场

细分市场,也被称为客户分析,是一种营销策略,这种策略将广阔的目标市场分为消费者.企业. 国家这些拥有或被视作拥有共同的需求.利益和特权的几块.然后针对的设计和实施相关策略.市场细分策略通常用于识别和进一步确定目标客户,并为营销计划方面提供数据支持,例如定位实现特多营销计划指标的高低。企业可以制定产品差异化策略,或统一的方法,这些方法涉及到依赖于目标市场具体需求和属性的特定的产品或产品线。

 

5.推荐系统

推荐系统是信息过滤系统的子集,它试图预测一个用户给与一个项目的评级或偏好.

 

6 .关联规则学习

关联规则学习是一种在大型数据库中发现变量间有趣关系的方法。举例来说,{洋葱,土豆}===>{汉堡肉} 这个超市销售数据中发现的规则表明,如果一个顾客在一起买洋葱和土豆,他们很可能也会买汉堡包。在欺诈检测,关联规则是用来与欺诈相关的检测模式.连锁分析进行识别额外的欺诈案件.如果有A用户在B商店用于欺诈购买的信用卡交易数据,通过分析B商店所有交易数据,我们便可以发现带有欺诈行为的其他用户.

 

7。归因模型

归因模型是一个规则,或者说一套规则,用于确定销售和转换率在转换路径上的交点有多可信。例如,谷歌分析的最后互动模型指定先于销售和转化率的最终交点100%的可信度.宏观经济模型使用长期的,汇总的历史数据为每次销售或转换率分配一系列属性权重,这些模型也用于广告组合优化。

 

8。评分

评分模型是一种特殊的预测模型。预测模型可以预测拖欠贷款,风险事故,客户流失或恶化,或买一个好东西的机会。评分模型通常使用是基于逻辑回归和决策树,或多个算法的组合的对数刻度(你的分数每增加50点就降低50%的违约风险).评分技术通常适用于交易数据,有时是实时检测.

 

9。预测模型

预测模型,利用统计来预测结果。最常见的是预测未来发生的一件事,但不限如此,预测模型可以应用于任何类型的未知事件,无论何时发生。例如,预测模型通常用于在犯罪发生后,检测犯罪和确定犯罪嫌疑人,它也可以结合时间序列或空间模型用于天气预报,预测股票市场价格.神经网络,线性回归,决策树和朴素贝叶斯是一些用于预测模型的技术。他们都会创建一个训练集,交叉验证,模型拟合和选择。

一些预测系统不使用统计模型,而是数据驱动的。

 

10。聚类

聚类分析或聚类是将一组对象分组,分组的方式是使同一组对象(称之为簇)的相似度更高于其他组的对象.数据挖掘是探索性数据挖掘的主要任务,也是一种常用的统计数据分析技术,在许多领域都有应用,包括机器学习、模式识别、图像分析、信息检索和生物信息学等。与监督分类法不同,聚类不使用训练集。因为掺杂了一些监督分类的操作,故称为半监督学习。

 

11。监督分类

监督分类,也被称为监督学习,是从带标签的训练数据集中推导出一个函数的机器学习任务.训练数据集包括一组训练样本。在监督学习中,每一个样本都包含一对一个输入对象(通常是一个向量)和一个期望的输出值(也称为标签,类或类别)。有监督学习算法分析训练数据,并产生一个推断的函数,它可以用于映射新的例子。一个最佳的方案将允许该算法在看不见的情况下正确地确定分类标签。在大数据情况下.样本能在DSC上被发现.聚类算法是非常缓慢的,而一些称为指数化或自动化标签的快速技术将在本文的第二部分描述.。

 

12。极值理论

极值理论或极值分析(伊娃)是统计学中一个分支用于处理概率分布中值的极值偏差.它旨在评估从给定的有序的随机变量的样本发生比以前观察到的更极端事件的概率.例如,每10、100、或500年发生的洪水,预测灾难性事件,这些模型最近已经表现不佳,从而导致保险公司的巨大损失。 我更喜欢蒙特卡洛模拟,特别是如果你的训练数据是非常大的。这将在本文第二部分描述。

 

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部