python - 基于字段的子集数据框

标签 python pandas

mukey   cokey     hzdept_r  hzdepb_r
422927  11090397    0        20
422927  11090397    20       71
422927  11090397    71       152
422927  11090398    0        18
422927  11090398    18       117
422927  11090398    117      152

我想对上面的数据框进行子集化，以便只选择第一组 cokey(在本例中为 11090397)。当然，由于这是一个示例数据集，因此解决方案需要扩展到此类数据框的更大版本。

在这种情况下，生成的数据集应该是:

mukey   cokey     hzdept_r  hzdepb_r
422927  11090397    0        20
422927  11090397    20       71
422927  11090397    71       152

我试过使用 groupby，但不确定如何从那里只选择第一个 cokey 值。

最佳答案

如果您正在寻找 df 中与 df 中的第一个 cokey 相等的第一个所有 cokey，请使用:

test[test['cokey'] == test.cokey[0]]

编辑: @dsm 是对的，上面的代码会给你索引零的 cokey，所以如果你的 df 没有从零开始的自动递增索引，你可能得不到实际想要的结果。而是使用:

test[test['cokey'] == test.iloc[0]['cokey']]

关于python - 基于字段的子集数据框，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29378242/

上一篇：python - 从亚马逊抓取网页内容

下一篇：python - 编码风格 : lightweight/simplest way to create instances supporting attribute assignment?

相关文章：

python - 用于 AJAX 内容的 Scrapy CrawlSpider

python - 如何根据 IntervalIndex 对跳过的日期时间的值求和？

python - 在 Python 中使用 if 条件加速逐行循环

pandas - Pandas 图中的辅助 y 轴限制

python - 如何选择由 numpy 数组表示的图像中轮廓内的像素？

python - 如何根据 Pandas 中前一个元素之间的关系从同一列创建矩阵？

python - 使用 PyAudio 将多个图层添加到录音中

python - 如何将 python 字典放入 pandas 时间序列数据框中，其中键是日期对象

python - 使用 spotipy 提取艺术家流派和歌曲发布日期

python - 在哪里可以找到 Azure Cosmos DB 中的 masterekey 访问的访问日志