python - pandas:如何找到列中每个类别的最大 n 个值

标签 python pandas

我有一个巨大的市政图书馆目录数据集,其中包含书名、所在图书馆、图书馆所在的行政区以及借出次数。

我想找出每个街区借阅次数最多的 3 本书。

理想情况下,我会得到这样的东西:

Borough    Title    Total_loans
A          Book1    35615 
A          Book2    34895
A          Book3    2548
B          Book1    6541
B          Book2    5425

等等

这是我能得到的最接近的数据,但生成的数据框未按行政区分组且难以阅读。

import pandas as pd

df = pd.DataFrame({"borough":["A", "B", "B", "A", "A"], "title":["Book2", "Book1", "Book2", "Book2", "Book1"], "total_loans":[4, 48, 46, 78, 15]})

top_boroughs = df.groupby(['borough','title'])
top_boroughs.aggregate(sum).sort(['total_loans','title'], ascending=False)

感谢您的帮助。

最佳答案

简而言之:

df.groupby(level=[0,1]).sum().reset_index().sort_values(['borough', 'total_loans'], ascending=[1,0]).groupby('borough').head(3)

步骤:

  • 做正确的分组和求和
  • 按行政区和最大值排序
  • 按行政区分组,先取 3

由于两者,这优于公认的答案

  • 可读性(是的,一行很长,但你同样可以将其拆分):所有标准操作
  • 性能(标准优化操作与使用 concat 迭代扩大数据帧相比,浪费内存

我的输出(使用 head(1) 因为测试数据每组只有 2 行:

Out[484]: 
  borough  title  total_loans
1       A  Book2           82
2       B  Book1           48

关于python - pandas:如何找到列中每个类别的最大 n 个值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25043639/

相关文章:

python - 如何使用 tf.train.Checkpoint 在 tensorflow 2.0 中保存和加载选定变量和所有变量?

python - 在继承的数据类中使用 __new__

python - tf.reshape 没有为第一个元素提供 ?(None)

python - 为什么 auc 与 sklearn 和 R 的逻辑回归如此不同

python - 如何在 pandas dataframe 中组织结构化数据

python - Pandas:将一列的起始值乘以组内另一列中的每个值

python 连接到同一网络上的服务器

python - 使用箭头日期操作Python库以字符串形式解析日期

python - 使用 python 将数据框上传到 google 表格时出错?

python - 用 Pandas 突出显示散点图中的最后一个数据点