r - 汇总忽略重复的数据框

标签 r summary

我有一个数据框,其中一列中有重复的条目。我想根据那一栏总结其他栏。我希望摘要在制作摘要时考虑每个唯一条目而不是总数。 例如在下面的数据框示例中,如果我想回答关于有多少人被调查是年轻人,中年人和老年人的问题?“RefID”1-1在汇总时被视为1的计数"ageclass"=young 并且不被解释为计数为 5。

RefID   Altitude    Sex ageclass
1-1 Low F   young
1-1 Low F   young
1-1 Low F   young
1-1 Low F   young
1-1 Low F   young
1-2 Low F   midage
1-2 Low F   midage
1-2 Low F   midage
1-2 Low F   midage
1-2 Low F   midage
1-2 Low F   midage
1-2 Low F   midage
1-2 Low F   midage
1-2 Low F   midage
1-2 Low F   midage
1-2 Low F   midage
1-2 Low F   midage
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-3 Low F   old
1-4 Low F   old
1-4 Low F   old
1-4 Low F   old
1-4 Low F   old
1-4 Low F   old
1-4 Low F   old
1-4 Low F   old
1-4 Low F   old
1-4 Low F   old
1-4 Low F   old
1-4 Low F   old
1-4 Low F   old
1-5 Low F   old
1-5 Low F   old
1-5 Low F   old
1-5 Low F   old
1-5 Low F   old
1-5 Low F   old
1-5 Low F   old
1-7 Low F   old
1-7 Low F   old
1-7 Low F   old
1-7 Low F   old
1-8 Low F   old
1-8 Low F   old
1-9 Low F   old
1-9 Low F   old
1-9 Low F   old

谢谢。

最佳答案

plyr 包对此很有用。例如。你可以这样做:

> require(plyr)
> ddply( df, .(ageclass), summarise, Num = length(unique(RefID)))
  ageclass Num
1   midage   1
2      old   6
3    young   1

关于r - 汇总忽略重复的数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5016418/

相关文章:

r - 如何更改base R' cut获得的输出格式?

r - 如何解释 R 中自动 arima 结果的第二部分?

减少大栅格列表上马赛克的内存使用量

r - 为什么使用ifelse后还要重新设置as.Date origin?有没有更好的办法?

Python Pandas groupby 或滚动多年平均汇总统计

r - 使用 dplyr 聚合数据框,同时保留其他变量

r - 使用颜色图例将总计或平均值添加到 ggplot

r - 使用data.table中的滚动函数计算点之间的欧氏距离

r - 如何总结具有缺失数据的分类变量?

R - stargazer 添加引用类别