点击上方,All in AI中国
每个数据科学家都会遇到这样一个问题,什么是P值以及我们如何在统计分析中使用它?
每个数据科学访谈中至少有一个问题是关于P值及其目的。因此,在本文中,我将讨论P值的上下文、过程和目的。数十年来一直谴责对统计测试的错误解释和滥用、置信区间和统计能力,但仍然猖獗。由于这些概念需要高度和时间,这种高认知需求导致了捷径定义和解释的流行,这种定义和解释完全是错误的,有时甚至是灾难性的。然而这些误解在大部分科学文献中都占主导地位。
统计测试
在统计测试的大多数应用中,模型中的一个假设是假设特定效应具有特定大小,并且已经成为统计分析的目标。这种有针对性的假设称为研究假设或检验假设,用于评估它的统计方法称为统计假设检验。最常见的是,目标效应大小是一个“null”值,表示零效应(例如,研究处理对平均结果没有影响),在这种情况下,测试假设被称为零假设。尽管如此,也可以测试其他效果大小。我们还可以检验假设效果是否属于特定范围;例如,我们可以检验效果不大于特定量的假设,在这种情况下,假设被认为是单侧假设。
许多统计教学和实践已经形成了一种强烈(并且不健康)的焦点,即研究的主要目的应该是检验无效假设。实际上,大多数统计测试的描述仅于测试无效假设,整个主题被称为“空假设显著性检验”。这种对零假设的独家会导致对测试的误解。更令人误解的是,许多作者使用“零假设”来指代任何检验假设,即使这种用法与其他作者不一致,而且普通英语定义为“无效”。
更精确的统计分析目标是提供关于效果大小的确定性或不确定性的评估。我们在假设的“可能性”方面表达了这种确定性。然而,在传统的统计方法中,“概率”不是指假设,而是指假定统计模型下数据模式的假设频率的数量。这些方法因此被称为频率论方法,并且它们预测的假设频率被称为“频率概率”,而不是假设概率(误解)。
P值
假设频率称为P值,也称为测试假设的“观察到的显著性水平”。P值和统计显著性的传统定义围绕无效假设,我们将用于计算P值的所有其他假设视为完全正确。由于我们不确定这些假设,我们将学习更普遍的P值视图,它是观测数据与我们预测或期望看到的数据之间的兼容性的统计汇总,如果我们知道整个统计模型是正确的。
使用检验统计量(例如t统计量或卡方统计量)来测量数据与模型预测之间的距离。如果每个模型假设都是正确的,包括测试假设,那么P值就是所选择的检验统计量至少与其观察值一样大的概率。这个定义体现了传统定义中丢失的一个关键点:在逻辑术语中,P值测试所有关于数据生成方式的假设(整个模型),而不仅仅是它应该测试的目标假设(例如null)假设)。
通过获得较小的P值,我们可以说,如果所有假设都是正确的,那么数据就更不寻常;但是一个非常小的P值并没有告诉我们关于假设有效性的任何信息。让我们举一个例子,当P值因为假设的假设目标而非常小时,由于研究协议违规,它可能很小,或者可能是用不正确的数据进行分析。相反,大的P值表明数据在统计模型下并不罕见,但它并没有告诉我们关于模型有效性和假设的任何信息。由于研究协议违规,它可能很大,或者可能是使用不正确的数据进行分析,或者只是为了表示目的而制作有效点。
建立良好统计模型的最佳方法是计算置信区间,现在许多期刊需要置信区间。
这种对测试中无效假设的专注,不仅会导致对测试的误解和对估计的评价,还会掩盖P值与置信区间之间的密切关系,以及它们共有的弱点。