python - 如何使用 pandas query() 在查询表达式中正确引用多索引列标题?

标签 python pandas

使用简单的(单级)列索引,可以使用 .query() 访问 Pandas DataFrame 中的列,如下所示:

df1 = pd.DataFrame(np.random.rand(10,2),index=range(10),columns=['A','B'])
df1.query('A > 0.5')

我正在努力在具有列多索引的 DataFrame 中实现类比:
df2 = pd.DataFrame(np.random.rand(10,2),index=range(10),columns=[['A','B'],['C','D']])
df2.query('(A,C) > 0.5') # fails
df2.query('"(A,C)" > 0.5') # fails
df2.query('("A","C") > 0.5') # fails

这是可行的吗?谢谢...

(至于动机:query() 似乎允许在行多索引 - 列单索引数据帧上进行非常简洁的选择,例如:
df3 = pd.DataFrame(np.random.rand(6,2),index=[[0]*3+[1]*3,range(2,8)],columns=['A','B'])
df3.index.names=['one','two']
df3.query('one==0 & two<4 & A>0.5')

我想对两个轴上的 DF 多索引做类似的事情......)

最佳答案

有一个 open issue在 github 上为此,但与此同时,一个建议的解决方法是通过 DataFrame 变量通过 @ 引用该列。符号:

df2.query("@df2.A.C > 0.5")
这不是一个完美的解决方法。如果您的标题名称/级别包含空格,您需要先删除/重命名它们。

关于python - 如何使用 pandas query() 在查询表达式中正确引用多索引列标题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26486501/

相关文章:

python - 查找栅格方向变化的算法

python - 如何根据python中的Where函数获取两列值

python Pandas : How can I search for a string in a column?

python - 如何从包含 NaN 的另一个框架中的列表中对 pandas 数据框架中的列进行子集化?

python - 将 'now' 时间戳列添加到 pandas df

python计算到列中数字的距离

python - 使用 groupby 后,如何将多行中的所有值放入列表中?

python - 远程 : missing/incomplete bugzilla conf (no bugzilla_url) error with gitzilla

python - 用 Pandas 划分垃圾箱

python - 加载带有标签的 Tensorflow 模型