12.8 注意辛普森悖论

上述应急表是对大量观察结果的总结，但有时会产生误导。让我们以棒球为例。下表显示了 1995-1997 年间德里克·杰特和大卫·贾斯汀的击球数据（击数/击数和平均击球数）：

玩家	1995 年		1996 年		1997 年		合并
基特	12 月 48 日	0.250	183/582 年	.314 条	190/654 年	.291 条	385/1284 年	.300
大卫·正义	104/411 号	.253	45/140 分	.321	163/495 年	.329	312/1046 年	.298 条

如果你仔细观察，你会发现有些奇怪的事情正在发生：在每一年，正义比杰特有一个更高的击球平均值，但当我们结合所有三年的数据，杰特的平均值实际上高于正义！这是一个被称为 _ 辛普森悖论 _ 的现象的例子，在这种现象中，组合数据集中的模式可能不存在于数据的任何子集中。当有另一个变量可能在不同的子集之间发生变化时，就会发生这种情况——在这种情况下，AT 蝙蝠的数量随着时间的推移而变化，1995 年司法部的击球次数更多（击球平均数较低时）。我们把它称为一个潜伏变量（htg2），每当我们检查分类数据时，注意这些变量总是很重要的。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

12.8.md

12.8.md

12.8 注意辛普森悖论

Files

12.8.md

Latest commit

History

12.8.md

File metadata and controls

12.8 注意辛普森悖论