忙人学统计
译者 :Cui Miao (苗萃) 原文作者:Cassie Kozyrkov (柯凯茜)
曾否想过有人能告诉我统计学是什么, 那些术语都是什么意思?让我来帮你实现你的愿望吧! 我会在八分钟内概括统计学中所有最高的概念。 如果你只看大字体的部分,或者只用一分钟就可以了 。
什么是统计学? 它是任何一种整合数据的方法的学说。 是的,100%正确的术语。现在让我们来看下统计学的范畴都是什么。
统计学是改变你的观念的科学。
根据事实(参数)来作决定是已经够难的了, 可更糟的是,我们时常没有我们所需的数据。相反的是, 我们所知道的(我们的样本)不同于我们希望我们能知道的(我们的全部群体)。这就是所谓的不确定性。
统计学是在不确定性下改变你的观念的科学。你的观念是什么?是一种默认的行为, 或一种已存在的信念。那要是你的观念是处在一种空白的状态呢?请看这个链接。
贝叶斯氏学派改变你的思维观念
贝氏统计学是一门利用数据来更新你的观念的学派。贝氏喜欢用可靠区间来报告结果。(可靠区间是答案处于这两个数字之间的区间)。
频率学派改变你的行为观念
频率学派统计学研究改变你的行为观念。你不需要具有一个信念来采取默认行为,它只是你如果不分析数据,你所会采取的行为。频率学派(或古典派)通常会是那个你经常在外面 和在统计学101课程里遇到的人。我们在下文里就用古典派来指他们。
假说是对世界可能会是什么样的描述。
在零假说的世界里所有的默认行为都是一种快乐的选择。 替代假说代表所有其他的世界。如果我能用数据来让你相信你不是住在零假说的世界里,那么你最好改变观念,采取不同的行为。
例如,我们可以一起走去上课(默认行为)假使你能在15分钟内准备好(零假说),但是如果迹象(数据)表明,你需要更长的时间准备(替代假说),你就得自己走去,因为我已经出来到这了(替代行为)。
简单测验: ‘我们的事实会使零假说看上去很荒谬吗?’
所有假说检验都是问这个问题: 我们的事实会使零假说看上去很荒谬吗?拒绝零假说意味着我们学到了一些东西,我们应该改变我们的观念。不拒绝零假说意味着我们没学到什么有趣的东西, 就好像到树林里散步, 没看见人并不证明地球上没有人。没学到东西会使你感到悲哀吗?你不应该感到悲哀,因为你有这样一个可爱的保险:你知道具体应采取的行动。如果没学到东西,你就没理由改变观念,就应继续采取默认行动。
我们怎样才能知道我们是否学到了有趣的东西,一些与我们想继续在已知世界里采取默认行动不一样的知识呢?要回答这个问题,我们就要看一下P值或置信区间。
周期表中的p值,它是惊讶元素。
P值说,‘如果我住在一个我应该采取默认行为的世界,我的事实会是怎样的平凡呢?’ P值越低,数据就会更大声地叫,’哇,那有些出乎意外, 也许你应该改变观念!‘
可以把P值和一个叫做显著性水平的阈值作比较来做这个检测。这是一个你可以用来控制你所能承受的风险的控制阀。 这是你会愚蠢地离开你的舒适默认行为的最大可能性。 如果你将显著水平设为0, 那就是说你拒绝产生非正确地离开默认行为的错误。 那就放下笔吧, 不要分析任何数据, 只采取你的默认行为。(但那也意味着你可能会犯愚蠢地没有离开你的默认行为的错误。 )
置信区间是一种报告假说检测结果的方法。使用时,检查它是否和你的零假说有重复。如果有重复,那就没学到东西。如果没重复,那就改变你的观念。
只在置信区间和你的零假说不重复的情况下,改变观念。
虽然置信区间的技术定义有点奇怪(我会在将来的贴子里解释, 它绝对不象可靠区间那样简单,也不想把它变得简单),但它具有两种对分析者描述数据有用的性能: (1)最好的猜测总是被包含在其中。(2)数据越多,给出的范围越窄。要注意它和P值不是用来作谈话资料的, 不要期望简洁的定义。它们只是用于概括检测结果的方法。(如果你去上了课, 还是发现不可能记住它们的定义,这就是其中的缘故。统计学说: 不是你,是我的问题。)
这都有什么意义呢?如果你用我刚叙述过的方法作测试, 数学会保证你犯错的风险被控制在你所选的显著性水平(这也是为什么它对你很重要,要选它。 数学在这儿可以保证你所选择的风险设置,如果你不作设置,这一切就完全没意义)。
数学是用来建立零假说世界的玩具模型的。从中你可以得到P值。
那些可怕的公式,概率,和分布又是做什么的?它们让我们能表达出掌管零假说世界的规则,这样我们就可以演绎出那个世界是否就是能产生和你的现实世界同样数据的地方。如果它不能的话,你就可以大叫:“岂有此理,砍掉它的头!” 如果它能的话, 你就可以耸耸肩,什么也没学到。以后我还会继续讨论这个题目。现在让我们来把数学想作是帮我们建立小玩具世界的工具,以便我们来研究,从而发现我们的数据在其之中是否看上去合理。 P值和置信区间是用来概括这些的方法,所以你可不必眯着眼看那些冗长的关于一个模型世界的描述。它们就是游戏终点: 用它们来决定你是否要离开你的默认行为。工作结束!
我们做好功课了吗?这就是功效所能估量的。
等等,我们有否确实收集了足够的证据,从而能使我们可以公正地改变我们的观念?我们做好了这个功课了吗?这就是功效概念所要估量的。 找不到可以改变观念的证据确实是容易的,只要不去找就成了。你拥有的功效越大,你就会有更多的机会在条件正确时改变观念。 功效就是正确地放弃默认行为的概率。
当我们没学到东西而继续做我们所在做的事情时, 如果我们的过程中有很多功效,我们就能感觉更好。至少我们做了功课。 如果我们没什么功效,我们会很清楚我们不会改变观念。 我们尽可以不必费力去分析数据。
在开始之前, 用功效分析来检验你有否准备了足够的数据。
功效分析 是检验对于给定量的数据,你预期能有多少功效的方法。你要在开始之前用它来作你的研究计划。(这是很容易的,我会在以后的贴子里给你演示,它只需几个循环。)
不确定性意味着你有可能得到错误的结论,即使你的数学是世界上最好的。
什么不是统计学?用魔幻的魔术从不确定性导出确定性。世上没有这样的魔术;你总会出错的。看一下这两个频率学派会出的错误。 (贝氏派不会犯错。开玩笑了!也许有这样的时候,请关注我的贝氏贴子。)
I型错误是不明智地放弃你的默认行为。 喂,你说过你对默认行为感觉良好,谢谢所有应用的数学,你放弃了它。 哇噻!II型错误是不明智地不放弃默认行为。(我们这些统计学家很有命名的创造性。 猜猜哪个错误更糟。 I型吗?对了。太有创意了。)
I型错误就是在不该改变观念时,改变了观念。
II型错误就是在应该改变观念时,没有改变观念。
I型错误就象是判无罪的人有罪。 II型错误就象让罪犯逃脱法网。这两类错误的概率处于一种平衡状态(可使有罪的人易于被捉,也可使无罪的人易于被冤枉);除非你能拿到更多的证据(数据!),而使两类错误更少发生,而且一切都会更好。 这就是为什么统计学家希望你有越多的数据越好!当你有更多的数据时,一切都会更好。
更多的数据意味着会有更多的保护而不至于得出错误的结论。
什么是多重比较校正?如果你确定要对同一数据样本计划多个 查询问题的话,你得采用不同经过校正的方法来检验。 如果你一遍又一遍的对无辜的人进行审讯,逐渐地就会有偶发事件使得他看上去可疑。这个术语统计学意义,并不意味着世界上发生了重要的事情。 只是我们改变了观念。也许改错了,不确定性真是该死!
不要浪费太多时间去回答错误的问题。要用智慧来应用统计学(而且只用在需要的地方)。
什么是III型错误?这是一个统计学幽默:它指的是正确的拒绝了错误的零假设。换句话说就是用了正确的数学去回答错误的问题。
一个解决提出和回答错误问题的答案可以在决策情报工程(Decision Intelligence Engineering)中找到, 这个新科目研究怎样应用数据科学来解决商务问题和作出相应的决定。通过学习掌握决策情报,你就会提高避免III型错误和无用分析的能力。
总之,统计学是改变你的观念的科学。 它有两个学派。 较流行的学派 — 频率学派 — 检验你是否应放弃默认行为。贝氏统计学应用数据来更新你的原有观念。如果你没有任何原有观念,那就检看你的数据,用你的直觉吧。
您可以在这里阅读其他有趣的中文文章:bit.ly/ai_chinese