文档章节

知识是一种概率

 开普勒鑫球
发布于 2018/05/21 18:44
字数 1146
阅读 6
收藏 0

作者|开鑫金服-杜健

编辑|Andy

 

知识是一种概率

 

 

最近在看《那些让你更聪明的科学新概念》时,了解到“基本概率”的概念:

 

 每当一个统计学家想要基于现有证据预测事件发生的概率时,有两个必须考虑的信息点:证据本身的可靠性,我们必须计算它的可靠程度;单纯以相对发生率来计算事件发生的可能性。第二种数据其实就是基本概率。

 

书中给出一个容易忽略基本概率的例子,我看了答案之后发现自己算错了。

 

 

假设你参加了某种罕见癌症的检查。在一般人群中,这种癌症的罹患概率是1%(基本概率),而广泛的实验证明,这项检查的准确率是79%。更精确地说,尽管检查不会漏诊这项癌症,但是有21%的可能会被误诊为这个癌症,也就是所谓的假阳性。如果你接受了检查,检查结果是阳性的,那么,真的患癌的可能性是多大呢?

 

这个例子可以用贝叶斯公式计算出来,应该是4.6%[^1]。

 

犯了两个错误

遗漏了“不会漏诊”这个条件

1

 

 

也就是如果患癌,则一定能检测到。大多数人的第一印象是从检查的可信度近80%得出确实患癌的可能性就是80%左右,这是错的。因为他们只关注到了检查的可信度,却忽视了基本概率。

 

 

证据本身的可靠性也很重要

2

 

比如前段时间在学术圈被火热讨论的新闻“美国政治学顶级学术期刊《政治分析》宣布禁用P值”。

 

这里的P值用于描述无效假设成立的可能性,现在学术界的一个被广泛认可的标准,是 P 值要小于 0.05。如果 P > 0.05 ,别人会认为你这个结果很可能纯属巧合,根本不值得认真对待;如果 P < 0.05 ,人们就说这个结果是“ 显著的 ”。

 

事实上,这个标准没有科学依据,只是约定俗成的,是由英国的统计学家罗纳德·费希尔(Ronald Fisher)在几十年前提出的。他当时选择了0.05这个数值,意思是 P < 0.05 的结果才“值得看”。他其实认为P < 0.001 才是可以接受的结论。 但问题在于,做实验想要得到 P 值小于0.001的结果,需要找太多受试者,成本实在太高。于是大家退而求其次,都默认了 0.05,其实这个标准都是很难达到的。

 

过去几年,在经济学、心理学等领域的论文中,P值的分布,在0.05处有明显的凸起,唯一的解释,就是有很多论文故意把P值做到了恰好在0.05以内。[^2]

 

 

 

所以,学习知识不仅要知其然,还要知其所以然。在《那些让你更聪明的科学新概念》中,意大利理论物理学家卡尔罗·罗威利(Carlo Rovelli)提到 

 

 

本质上,知识是一种概率,这是当代实用主义哲学强调的概念。

 

科学就是在不断质疑中发展,知识可以随时间慢慢演化,将来新的证据和新的论证方法可能会改变现有的知识,所以也可以说很多知识是不确定的。

数学物理学家弗里曼·戴森认为科学就是反叛的产物,只有反叛的心态才是科学的正确态度。而尼采也曾经提出,根本不存在什么绝对的、客观的真理。所以我们不能盲目地听从专家的意见,而应该亲自去验证知识的来源是否可靠,最好能像数学一样,一步一步地严格推理。

 

 

我们需要保持质疑精神,学会在冲突信息中随时获得新知,以应对快速变化的世界。

 

 

[1] 设A事件为患癌,B事件为检查呈阳性。P(A|B)=P(A)/P(B)P(B|A)=0.01/(10.01+0.990.21)1=0.045893

[2] P<0.05:科学家的隐藏动机.万维钢.2018.图中三个研究的出处可以在这里找到:http://datacolada.org/41

 

推荐阅读:

代理模式及实现探究

Spring Boot2.0之WebFlux开发实战(含源码)

【招聘】青春还在,梦想要快,大神请接招!

 

本文转载自:https://mp.weixin.qq.com/s/KeJi_lcZsgEGcsUe8I75pA

粉丝 1
博文 31
码字总数 0
作品 0
南京
私信 提问
贝叶斯学习--极大后验概率假设和极大似然假设

在机器学习中,通常我们感兴趣的是在给定训练数据D时,确定假设空间H中的最佳假设。 所谓最佳假设,一种办法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识条件下的最可能(m...

小祁1124
2016/10/17
48
0
推理之贝叶斯网络(Bayesian Networks,BN)简介

大侦探在对案件进行破解的过程中,不会放过一个细致入微的观察,敏锐的洞察力和非凡的推理技巧,是他们的过人之处,例如福尔摩斯,狄仁杰... 贝叶斯网络是一种概率网络,利用图形化的方式进行...

阳_
2013/09/18
1.8K
0
统计学习方法之朴素贝叶斯

1.概述 朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计算出其后验概率(即该...

JasonhavenD
2017/12/09
0
0
Hinton 新作「在线蒸馏」,提升深度学习分布式训练表现的利器

雷锋网(公众号:雷锋网) AI 科技评论按:Hinton 团队最近发表了一篇关于「在线蒸馏」的新论文。论文里讲了什么呢? 我们为什么需要在线蒸馏? 近年来,随着深度学习技术的蓬勃发展,我们日常...

MrBear
2018/04/24
0
0
Distilling the Knowledge in a Neural Network 论文理解

Geoffrey Hinton,Oriol Vinyals,Jeff Dean Mon, 9 Mar 2015 阅读时间:2017年7月 引入 一. 启发 模型训练与实际运用的重心不同: 训练一个复杂、大型、高精度模型后,模型需要满足不同用户...

W姓大宝
2017/07/06
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Go Web 编程之 数据库

概述 数据库用来存储数据。只要不是玩具项目,每个项目都需要用到数据库。现在用的最多的还是 MySQL,PostgreSQL的使用也在快速增长中。 在 Web 开发中,数据库也是必须的。本文将介绍如何在...

darjunlee
今天
51
0
spring-boot-maven-plugin not found的解决方案。

通过IDE创建一个springboot项目, <plugin> <groupId>org.springframework.boot</groupId>//这行红色 <artifactId>spring-boot-maven-plugin</artifactId>//这行红色</plugin> 提示sprin......

一片云里的天空
今天
84
0
OSChina 周三乱弹 —— 我可能是个憨憨

Osc乱弹歌单(2020)请戳(这里) 【今日歌曲】 @宇辰OSC :分享Hare Je的单曲《Alan Walker-Faded(Hare Je remix)》: #今日歌曲推荐# 可以放松大脑的一首纯音乐 《Alan Walker-Faded(Har...

小小编辑
今天
266
3
搞定SpringBoot多数据源(3):参数化变更源

春节将至,今天放假了,在此祝小伙伴们新春大吉,身体健康,思路清晰,永远无BUG! 一句话概括:参数化变更源意思是根据参数动态添加数据源以及切换数据源,解决不确定数据源的问题。 1. 引言...

mason技术记录
昨天
99
0
sql 基础知识

sql 基础知识 不要极至最求一条sql语句搞定一切,可合理拆分为多条语句 1. sql 变量定义与赋值 Sql 语句中,直接在SELECT使用@定义一个变量,如:[@a](https://my.oschina.net/a8856225a)。 ...

DrChenXX
昨天
57
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部