文档章节

统计建模的24种应用(第1部分)

易野
 易野
发布于 2017/05/23 22:50
字数 2234
阅读 43
收藏 0

6b3cd54f417440f1970a41a9f4691ac5

    在这里,我们讨论统计模型的一般应用情况.不管他们是否源自数据科学,运筹学,工程学,机器学习或统计学.如决策树,logistic回归,贝叶斯模型,马尔可夫模型,数据压缩和特征选择等,我们都不会讨论其具体的算法,相反,我们讨论的框架是每一个使用自己的技术和算法去解决实际生活中的问题.

    下面大部分条目都可以在维基百科里找到,除了我个人写的一些外,我还引用少量来自于维基百科中相应文章的定义和摘要.3

1.空间模型

空间倚赖性是指地理空间内属性的协同作用:在近端位置特征似乎是相关的,要么正相关,要么负相关。在统计学中,空间的依赖性会导致空间自相关问题,例如颞自相关,因为这违反了标准统计技术中各观测值之间相互独立性的假设.

 

2.时间序列

时间序列分析方法大致可分为两类:频域的方法和时域方法。前者包括频谱分析和小波分析,后者包括自相关和交叉相关分析。在时域中,相关分析可以在某种过滤器中使用,这种过滤器类似于一种使用比例相关的方式,凭此,可以减轻在频域中操作的需求.另外,时间序列分析技术可被划分为参数和非参数的方法。参数方法假定基本平稳随机过程有一个特定的结构,这种结构使用少量的参数就可以被描述.(例如,使用一个自回归移动平均模型) 在这些方法中,任务就是评估那些描述随机过程的模型参数。相比之下,非参数方法不需要假设过程中有任何特定的结构,便可明确估计协方差或过程的谱 .时间序列分析方法也可分为线性和非线性,单变量和多变量。

 

3.生存分析

生存分析是统计学的一个分支,它分析发生一个或多个事件的预期持续时间,例如生物有机体的死亡和机械系统的崩溃.本课题在工程上称为可靠性理论或可靠性分析,在经济学中叫做持续时间分析或持续时间模型,在社会学中称为时间历史分析.生存分析试图回答这样的问题:在过去的某个时间中,人口生存的比例是多少?那些幸存者中死亡或失败的比例是多少?死亡或失败的多层原因能够被充分考虑吗?特定情况或特性下,如何提高或降低生存的概率?生存分析模型被统计人员和精算师所使用,同时也被营销人员应用到设计客户流失和留存的模型中.生存模型也被用来预测事件发生的时间(如从变得激进到变成恐怖分子的时间,或一把枪从被购买到被用在一场谋杀案中的时间)或建模和预测衰减.

 

4.细分市场

细分市场,也被称为客户分析,是一种营销策略,这种策略将广阔的目标市场分为消费者.企业. 国家这些拥有或被视作拥有共同的需求.利益和特权的几块.然后针对的设计和实施相关策略.市场细分策略通常用于识别和进一步确定目标客户,并为营销计划方面提供数据支持,例如定位实现特多营销计划指标的高低。企业可以制定产品差异化策略,或统一的方法,这些方法涉及到依赖于目标市场具体需求和属性的特定的产品或产品线。

 

5.推荐系统

推荐系统是信息过滤系统的子集,它试图预测一个用户给与一个项目的评级或偏好.

 

6 .关联规则学习

关联规则学习是一种在大型数据库中发现变量间有趣关系的方法。举例来说,{洋葱,土豆}===>{汉堡肉} 这个超市销售数据中发现的规则表明,如果一个顾客在一起买洋葱和土豆,他们很可能也会买汉堡包。在欺诈检测,关联规则是用来与欺诈相关的检测模式.连锁分析进行识别额外的欺诈案件.如果有A用户在B商店用于欺诈购买的信用卡交易数据,通过分析B商店所有交易数据,我们便可以发现带有欺诈行为的其他用户.

 

7。归因模型

归因模型是一个规则,或者说一套规则,用于确定销售和转换率在转换路径上的交点有多可信。例如,谷歌分析的最后互动模型指定先于销售和转化率的最终交点100%的可信度.宏观经济模型使用长期的,汇总的历史数据为每次销售或转换率分配一系列属性权重,这些模型也用于广告组合优化。

 

8。评分

评分模型是一种特殊的预测模型。预测模型可以预测拖欠贷款,风险事故,客户流失或恶化,或买一个好东西的机会。评分模型通常使用是基于逻辑回归和决策树,或多个算法的组合的对数刻度(你的分数每增加50点就降低50%的违约风险).评分技术通常适用于交易数据,有时是实时检测.

 

9。预测模型

预测模型,利用统计来预测结果。最常见的是预测未来发生的一件事,但不限如此,预测模型可以应用于任何类型的未知事件,无论何时发生。例如,预测模型通常用于在犯罪发生后,检测犯罪和确定犯罪嫌疑人,它也可以结合时间序列或空间模型用于天气预报,预测股票市场价格.神经网络,线性回归,决策树和朴素贝叶斯是一些用于预测模型的技术。他们都会创建一个训练集,交叉验证,模型拟合和选择。

一些预测系统不使用统计模型,而是数据驱动的。

 

10。聚类

聚类分析或聚类是将一组对象分组,分组的方式是使同一组对象(称之为簇)的相似度更高于其他组的对象.数据挖掘是探索性数据挖掘的主要任务,也是一种常用的统计数据分析技术,在许多领域都有应用,包括机器学习、模式识别、图像分析、信息检索和生物信息学等。与监督分类法不同,聚类不使用训练集。因为掺杂了一些监督分类的操作,故称为半监督学习。

 

11。监督分类

监督分类,也被称为监督学习,是从带标签的训练数据集中推导出一个函数的机器学习任务.训练数据集包括一组训练样本。在监督学习中,每一个样本都包含一对一个输入对象(通常是一个向量)和一个期望的输出值(也称为标签,类或类别)。有监督学习算法分析训练数据,并产生一个推断的函数,它可以用于映射新的例子。一个最佳的方案将允许该算法在看不见的情况下正确地确定分类标签。在大数据情况下.样本能在DSC上被发现.聚类算法是非常缓慢的,而一些称为指数化或自动化标签的快速技术将在本文的第二部分描述.。

 

12。极值理论

极值理论或极值分析(伊娃)是统计学中一个分支用于处理概率分布中值的极值偏差.它旨在评估从给定的有序的随机变量的样本发生比以前观察到的更极端事件的概率.例如,每10、100、或500年发生的洪水,预测灾难性事件,这些模型最近已经表现不佳,从而导致保险公司的巨大损失。 我更喜欢蒙特卡洛模拟,特别是如果你的训练数据是非常大的。这将在本文第二部分描述。

 

本文转载自:http://www.datasciencecentral.com/profiles/blogs/top-20-uses-of-statistical-modeling

易野
粉丝 6
博文 182
码字总数 132885
作品 0
深圳
私信 提问
机器学习书籍推荐

机器学习(Machine Learning, ML)无疑是目前计算机领域最热门的方向了。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身...

luanpeng825485697
2017/12/07
0
0
统计思维如何帮助大数据应用从人工走向智能?(下)

作者介绍:蔡主希,目前就职于京东金融-金融科技业务部,哥大统计数据狗,京东金融算法工程狮,可代码可软文的非典型理科男一枚,知乎号: @JovialCai,数据森麟公众号(ID:shujusenlin)特邀...

天善智能
2018/10/15
0
0
机器翻译三大核心技术原理 | AI知识科普

机器翻译技术发展了80多年,巴别塔的传说已经成为过去,上天是不可能上天的了,但是让你优雅地和全世界讨论世界杯,不再手舞足蹈、鸡同鸭讲,这一点机器翻译还是可以做到的! 01机器翻译和巴...

AI研究所
2018/07/06
0
0
偏最小二乘回归及其SAS实现

偏最小二乘回归可用于解决多重共线性问题,其用途比主成分回归更为广泛。最初由经济计量学家Herman Wold于20世纪70年代提出比较系统的算法体系,被许多统计学家称为“第二代多元统计分析方法...

StatsHuo
2015/12/18
0
0
使用UG软件建模的技巧

【IT168 技术文章】 美国UGS 公司开发的Unigaphics(UG)软件是一个集CAD/CAM/CAE于一体的大型CAD软件。使用该软件进行产品设计,能直观、准确地反映零、组件的形状和装配关系,可完全实现产品...

IT168网站
2009/06/23
0
0

没有更多内容

加载失败,请刷新页面

加载更多

哪些情况下适合使用云服务器?

我们一直在说云服务器价格适中,具备弹性扩展机制,适合部署中小规模的网站或应用。那么云服务器到底适用于哪些情况呢?如果您需要经常原始计算能力,那么使用独立服务器就能满足需求,因为他...

云漫网络Ruan
45分钟前
3
0
Kafka 2.3 Producer (0.9以后版本适用)

kafka0.9版本以后用java重新编写了producer,废除了原来scala编写的版本。 这里直接使用最新2.3版本,0.9以后的版本都适用。 注意引用的包为:org.apache.kafka.clients.producer import ja...

实时计算
54分钟前
2
0
Java 中的 String 有没有长度限制

转载: https://juejin.im/post/5d53653f5188257315539f9a String是Java中很重要的一个数据类型,除了基本数据类型以外,String是被使用的最广泛的了,但是,关于String,其实还是有很多东西...

低至一折起
今天
14
0
OpenStack 简介和几种安装方式总结

OpenStack :是一个由NASA和Rackspace合作研发并发起的,以Apache许可证授权的自由软件和开放源代码项目。项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。OpenSta...

小海bug
昨天
11
0
DDD(五)

1、引言 之前学习了解了DDD中实体这一概念,那么接下来需要了解的就是值对象、唯一标识。值对象,值就是数字1、2、3,字符串“1”,“2”,“3”,值时对象的特征,对象是一个事物的具体描述...

MrYuZixian
昨天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部