文档章节

[25年后的统计系会是什么样?

MtrS
 MtrS
发布于 2017/05/27 21:56
字数 2987
阅读 20
收藏 0

25年后的统计系会是什么样?

本文是统计学家Leo Breiman1994年在加州伯克利统计系毕业典礼上的讲话,原文请参考此处

中文译稿可参见施涛博客,本文对其进行了修改和润色。

Leo Breiman简介:加州伯克利统计系教授,美国国家科学院院士,20世纪伟大的统计学家,囊括多项统计领域大奖。机器学习先驱者,分类回归树作者之一,Bagging方法发明者,对模式识别领域有巨大贡献。于2005年逝世。更多信息可参考此处此处

Leo_Breiman很久以前,Peter Bickel 就请我来做一个毕业典礼致辞。Peter 是非常聪明的,他知道,如果提前请人在似乎很遥远的将来某天去发言,他们很可能会答应,而我就是如此。但随着时间的临近,要发言的现实紧迫感也逼近了。朋友说,“你可以说些很长的笑话”。但是一来我并不擅长讲笑话,二来我觉得讲笑话似乎也不恰当。因此,我还是决定谈谈我们都熟悉的东西——统计——我们都是他的一份子,一个古怪而有趣的领域。

试想一下你已经离开且没有接触这个领域25年了。也许你至今一直在撒哈拉中部的石油勘探公司工作,或者在巴塔哥尼亚做调查,又或者在一个广阔的狩猎保留地中计算着珍稀鸟类数目。

但现在你决定去度假,到伯克利看看,探望下统计系的老教授和朋友。当然,你预料到了会有些变化:老教授变得更老,年轻的也青春已逝。但还会有什么其他变化呢?

好,这里恰有一个水晶球,从它那里我能看到这些变化。

假如我问问其他领域,比如物理、数学或工程的毕业生,25年后事情会如何,答案应该会很简单——一切照旧呗。毕竟,阿基米德早在2000年前就在做微积分,工程和物理,那么25年的发展算什么呢 。但统计正迅速发展 ,很难预测未来25年会发生什么,这是因为一定程度上,统计是一个奇怪的领域。如果你仔细思考下,你很可能对自己说:“我正身处一个多么奇怪的领域啊”。这确实令人感到很奇怪,但正是这种奇怪感和错觉,将强劲地推动统计的发展。因此,我来谈谈为什么我会觉得很奇怪吧……

很多人自称是统计工作者,分散于政府和企业各个部门中。他们设计并监督调查,从事于工业试验,质量控制,数据分析,以及其他无数的实际工作。

统计已渗透到社会各个角落。它在社会科学和卫生等领域被广泛应用,但同时也被滥用 。统计表明 A和B之间有关联或X导致Y,这样的表述早已司空见惯。几个星期前,在一个简单的统计项目中,我开始收集 “纽约时报” 中涉及统计的文章, 现在我的书桌上已经被它们堆满了。每天总至少有两三篇这类的文章 ——又一个胆固醇新研究,一个对犯罪的民意调查,在核电厂工作的人有较高的癌症发病率的研究,诸如此类。我们周围世界越来越依赖于统计,这真是令人惊讶!

不知你尝试过这样的实验没?问一个非技术的朋友,“医生是做什么的?工程师,化学家或物理学家呢?”答案通常是合理的。但若接着问,“那么你认为统计学家是做什么的呢?”奇怪的答案就出来了。也许,最常见的答案是统计学家类似于精算师,他们坐在发霉的旧办公室,在巨大的表格中收集着要公布的数字。更令人奇怪的是,即使报纸上涉及统计的文章远远多于其他领域的文章,比如物理或化学,但一般人仍很少了解我们是干什么的。当然,我们也可能很少知道大多数下层统计人员在做什么。

由于其性质不明确,很多人都是绕了很多弯路才变成统计工作者。谁进入统计界?谁成为统计学家?当然你们所有都可以,但问题有趣的是——你是怎么到这里的?我的印象是,大多数统计人员都是误打误撞进来的。

例如我自己的情况,我厌倦了做概率论,于是离开大学,试图以做顾问谋生。结果,在概率论领域并没有很多顾问的职位,但在统计中却有很多不错的选择,于是我逐渐转换方向,并尝到了其中的乐趣。

虽然以前我从未公开承认过,一生中我从没有学过一门统计课程,但是事实确实如此。我的朋友和同事, 刚刚做完了三年斯坦福大学统计系的主任的Jerry Friedman, 也没有。他是一个实验物理学家,是在斯坦福线性加速器实验室中,研究高能粒子碰撞的轨道时才开始接触统计的。John Tukey是纯数学家,George Box是化学家,其他许多杰出的统计学家都是不知何故漂流到统计这条大船上来了。

其他等领域都是有很专注的旅客的。有时你会听到这样的说法:从我14岁开始,我想成为一名数学家,或者一个物理学家,又或者一名医生。但我从来没有听说过的人说,“从我14岁开始,我想成为一名统计学家。”

另一个奇怪的事实是,没有领域会像统计这样,理论和实践是分离如此之大。例如,在过去十年出版的文章中,可能有上千篇关于一维密度估计的渐近分析,这就像“物理评论”杂志每月发表10篇左右关于牛顿两体问题的文章 。大部分统计理论与统计实际工作人员处理的问题相去甚远,仿佛生活在不同世界。

问题的根源就在于,统计领域本身正经历着根本性的身份变革。通常统计系是作为数学系的一个组成部分开始的。由于实用的缘故,二战后很多有天赋年轻数学家被安排来做统计工作。他们在短期内,给统计打下了坚实的假设基础,发明了决策理论,并提出了许多统计定理和证明。

当统计从数学系分离出来时,他们抛弃了统计是纯数学的思想,并悄悄加入了使用数据的主张 。目前,统计仍处于不稳定状态,它没有找到自己的轨道,但强大的力量正在推动着它不断前进。

金钱,就是一个很大的力量。钱对我们学科的影响有两方面 。第一,国家科学基金会已经开始说,他们将投入大量的基金到应用统计方面 ,那些希望得到资金的教员将不得不离开纯数学领域。第二,大学将人满为患,不能提供更多的教职,我们的许多毕业生将不得不到政府和工业界谋求工作,那里对有关定理和证明是毫不关心的。

同样强大的推动力量,是统计人员在有趣的应用问题中找到的真正的乐趣。比如利用隐马尔可夫模型在DNA测序发现一些东西,参与设计一个大型的艾滋病实验,或者做图像重建,这些都是非常有趣的。

问题越宏大,趣味也更多。比如语音识别,汉字识别,机器人控制,这些问题中的数据和阻碍都是庞大而复杂的。这些都是我们要研究的问题,因为提出方法,用机器人传感器传来的信息去识别障碍或抓住物体本就是一个统计问题,从一个麦克风收集的电流来识别单词和句子也是数据使用问题。目前大多在这些领域的工作都是计算机科学家、工程师和物理学家来完成的,但统计人员也开始逐渐涉及这些领域。

要知道何去何从,我们必须清楚自己真正所擅长的是什么。统计的核心是什么?需要我们是一流的数学家吗?几乎不用。那是什么呢?成为收集信息,分析信息,并得出结论的专家!这才是我们真正所擅长的。所以我认为,这正是我们统计学家应有的定位,我们的身份危机才会到解决。

不过,这是否意味着将不需要任何理论或数学呢?计算机科学系是我们可以借鉴的一个很好的模式。他们也往往开始作为一个数学系的组成部分,然后分开。他们的部门众多,有芯片和网络设计工程师,也有专门的理论家——思考如何更好的对NP完整性进行改进,以及发展概率分析算法。但理论家和芯片设计师都生活在同一个世界,息息相关。

所以,现在你来看看, 25年后在伯克利的校园散步,发生了什么事。第一件事,从欧几里得校门进来,你会发现到埃文斯大楼不复存在。你停下来问一个年轻的学生:“埃文斯大楼发生了什么事?”。他想了一会儿说:“这是我记得的, 在2000年初,有一些学生骚乱,他们认为埃文斯大楼有碍观瞻而要求拆除,当局妥协。”

Evans_Hall_UCB_From_Sather_Tower_2007埃文斯大楼

“那么统计系呢?”“统计系吗?我不知道什么统计系,但那边好像在建设。”于是你进入一个可爱小建筑,外面覆盖着紫色的瓷砖,门上方写着“信息科学” 。当你在内闲逛,一切仿佛似曾相识——刚才不是Nolan教授刚经过吗?不过,虽然25年后一些面孔仍然熟悉,但他们从事的事情早已不同了。

当你从房间到另一个房间漫步,并在每个打开的门外(对,门都是敞开的,很开放和舒适的大厅)倾听时,一个房间里的人正盯着固定在墙壁上的语音波的傅立叶转换,讨论英文句子的语法结构。在另一个房间里,三个医学博士和两个年青的统计学家正讨论10年中脑癌治疗研究的细节。而其他房间,一些天文学家和Stark教授正为数据给宇宙大爆炸起源的提供多么有力的证据激烈地争论着。哎呦,你再看!埃文斯教授和两个计算机科学家正在追赶在大厅里巡航的一个小机器人呢!

所以,这是我唯一有幸和你一起看到的。记得打电话给我,让我知道25年后到底是如何一番景象。牢记要乐在其中!愿原力与你同在!

© 著作权归作者所有

共有 人打赏支持
MtrS
粉丝 32
博文 566
码字总数 357787
作品 0
榆林
私信 提问
你优化系统的目标是什么?

让我来给你们讲一个故事:当我在大学的时候,我选了一门“高级”面向对象编程课程。以前从来没有接触过这种知识,这个课程使用SmallTalk这种语言教学,而且教学方式非常特别;第一天,教授给...

oschina
2013/05/23
4.2K
24
20 年前的虚拟现实技术竟然是这样!

感谢Oculus Rift让虚拟现实变得如此受欢迎,但事实上这一技术已经存在数十年了。1991年美国ABC黄金时段的就有一个直播节目“虚拟现实”,它很幽默也很迷人,向我们展示了25年前虚拟现实技术的...

oschina
2015/01/24
3.8K
9
【案例分析】如何通过信息系统解决私营饭店发展瓶颈的一系列问题?

案例: 我亲戚开了25年饭店,一直都是只开一个店。因担心管理问题一直没有扩张,错过了大发展的机会, 后来允许几家加盟店,结果由于对加盟店管理跟不上,导致品牌美誉度下降... 几年前来到北...

skywalker
2010/10/12
230
7
Oracle-内部对象统计信息

系统对象统计信息用来票数oracle数据库里的一些内部表(X$系列表)的详细信息。实际上X$系列表实际上只是Oracle自定义的内存结构,X$表里面会存储与示例相关的各种信息。 在数据库运行的阶段...

hnairdb
2018/11/08
0
0
台积电创办人张忠谋:未来25年内很多职业将被AI取代

12月19日下午消息,台积电创办人张忠谋日前接受台湾地区《经济日报》专访时表示,未来25年内,很多职业将被人工智能(AI)取代。为什么说25年内就会改变人类?他以互联网(Internet)才问世2...

新浪科技
2018/12/19
0
0

没有更多内容

加载失败,请刷新页面

加载更多

徒手撸一个简单的RPC框架

徒手撸一个简单的RPC框架 之前在牛逼哄哄的 RPC 框架,底层到底什么原理得知了RPC(远程过程调用)简单来说就是调用远程的服务就像调用本地方法一样,其中用到的知识有序列化和反序列化、动态...

不学无数的程序员
34分钟前
1
0
Java 面试题目最全集合1000+ 大放送,能答对70%就去BATJTMD试试~

2019,相对往年我们会发现今年猎头电话少了,大部分企业年终奖缩水,加薪幅度也不如往年,选择好offer就要趁早,现在开始准备吧,刷一波Java面试题,能回答70%就去BATJTMD大胆试试~ 以下是2...

mikechen优知
39分钟前
2
0
玩转Koa之核心原理分析

Koa作为下一代Web开发框架,不仅让我们体验到了async/await语法带来同步方式书写异步代码的酸爽,而且本身简洁的特点,更加利于开发者结合业务本身进行扩展。 本文从以下几个方面解读Koa源码...

前端小攻略
40分钟前
1
0
分布式之数据库和缓存双写一致性方案解析

为什么写这篇文章? 首先,缓存由于其高并发和高性能的特性,已经在项目中被广泛使用。在读取缓存方面,大家没啥疑问,都是按照下图的流程来进行业务操作。 ![] 但是在更新缓存方面,对于更新...

hensemlee
今天
5
0
怎么学习大数据

最近有很多人在找,大数据是怎么学?需要学什么技术以及这些技术的学习顺序是什么?今天有时间我把个问题总结成文章分享给大家。 那大数据处理技术怎么学习呢?首先我们要学习Java语言和Lin...

董黎明
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部