有时,我们希望描述非数字数据集的中心趋势。例如,假设我们想知道哪种型号的 iPhone 最常用。假设我们问一组 iPhone 用户他们拥有哪种型号,并得到以下结果:
# compute mean of iPhone model numbers
iphoneDf <-
tribble(
~iPhoneModel, ~count,
5, 325,
6, 450,
7, 700,
8, 625
)
meanPhoneNumber <-
iphoneDf %>%
summarize(
sum(iPhoneModel * count) / sum(count)
) %>%
pull()
如果我们取这些值的平均值,我们会发现平均的 iPhone 型号是 6.77,这显然是无稽之谈,因为 iPhone 型号是按顺序排列的。在这种情况下,对集中趋势更合适的度量是模式,这是数据集中最常见的值,正如我们前面讨论的那样。