Skip to content

Latest commit

 

History

History
10 lines (7 loc) · 1.33 KB

File metadata and controls

10 lines (7 loc) · 1.33 KB

12.8 注意辛普森悖论

上述应急表是对大量观察结果的总结,但有时会产生误导。让我们以棒球为例。下表显示了 1995-1997 年间德里克·杰特和大卫·贾斯汀的击球数据(击数/击数和平均击球数):

玩家 1995 年 1996 年 1997 年 合并
基特 12 月 48 日 0.250 183/582 年 .314 条 190/654 年 .291 条 385/1284 年 .300
大卫·正义 104/411 号 .253 45/140 分 .321 163/495 年 .329 312/1046 年 .298 条

如果你仔细观察,你会发现有些奇怪的事情正在发生:在每一年,正义比杰特有一个更高的击球平均值,但当我们结合所有三年的数据,杰特的平均值实际上高于正义!这是一个被称为 _ 辛普森悖论 _ 的现象的例子,在这种现象中,组合数据集中的模式可能不存在于数据的任何子集中。当有另一个变量可能在不同的子集之间发生变化时,就会发生这种情况——在这种情况下,AT 蝙蝠的数量随着时间的推移而变化,1995 年司法部的击球次数更多(击球平均数较低时)。我们把它称为一个潜伏变量(htg2),每当我们检查分类数据时,注意这些变量总是很重要的。