python - 通过要求在 MultiIndex 级别中存在多个项目来过滤 pandas 数据框

我有一个包含多索引的数据表。第一层多指标是给定序列(DNA)对应的名称，第二层多指标对应特定类型的序列变异wt，m1,m2, m3 在下面的例子中。并非所有给定的 wt 序列都具有所有类型的变体(参见下面的 seqA 和 seqC)。

df = pd.DataFrame(data={'A':range(1,9), 'B':range(1,9), 'C': range(1,9)},
     index=pd.MultiIndex.from_tuples([('seqA', 'wt'), ('seqA', 'm1'),
     ('seqA', 'm2'),  ('seqB', 'wt'), ('seqB', 'm1'), ('seqB', 'm2'),
     ('seqB', 'm3'), ('seqC', 'wt') ]))

df.index.rename(['seq_name','type'], inplace=True)
print df

               A  B  C
seq_name type         
seqA     wt    1  1  1
         m1    2  2  2
         m2    3  3  3
seqB     wt    4  4  4
         m1    5  5  5
         m2    6  6  6
         m3    7  7  7
seqC     wt    8  8  8

我只想对具有特定变体类型(本例中为 m1 和 m2)的序列的数据进行后续分析。因此，我想过滤我的数据框以要求给定的 seq_name 具有在 list 中指定的所有变体类型。

我目前的解决方案非常笨拙，在我看来也不是很美观。

var_l = ['wt', 'm1', 'm2']
df1 = df[df.index.get_level_values('type').isin(var_l)] #Filter varaints not of interest

set_l = []
for v in var_l: #Filter for each variant individually, and store seq_names
    df2 = df[df.index.get_level_values('type').isin([v])]
    set_l.append(set(df2.index.get_level_values('seq_name')))

seq_s = set.intersection(*set_l) # Get seq_names that only have all three variants
df3 = df1[df1.index.get_level_values('seq_name').isin(seq_s)] #Filter based on seq_name
print df3

               A  B  C
seq_name type         
seqA     wt    1  1  1
         m1    2  2  2
         m2    3  3  3
seqB     wt    4  4  4
         m1    5  5  5
         m2    6  6  6

我觉得必须有一个可以做到这一点的单线。像这样的东西:

var_l = ['wt', 'm1', 'm2']
filtered_df = filterDataframe(df1, var_l)
print filtered_df

               A  B  C
seq_name type         
seqA     wt    1  1  1
         m1    2  2  2
         m2    3  3  3
seqB     wt    4  4  4
         m1    5  5  5
         m2    6  6  6

我已尝试搜索此站点，但只找到了允许您按列表中的任何项进行过滤的答案。

最佳答案

您可以使用 query与 filter :

var_l = ['wt', 'm1', 'm2']

filtered_df=df.query('type in @var_l').groupby(level=0).filter(lambda x: len(x)==len(var_l))
print (filtered_df)
               A  B  C
seq_name type         
seqA     wt    1  1  1
         m1    2  2  2
         m2    3  3  3
seqB     wt    4  4  4
         m1    5  5  5
         m2    6  6  6

另一种解决方案 transform size 然后按 boolean indexing 过滤:

filtered_df = df.query('type in @var_l')
filtered_df = filtered_df[filtered_df.groupby(level=0)['A']
                                     .transform('size')
                                     .eq(len(var_l))
                                     .rename(None)]

print (filtered_df)
               A  B  C
seq_name type         
seqA     wt    1  1  1
         m1    2  2  2
         m2    3  3  3
seqB     wt    4  4  4
         m1    5  5  5
         m2    6  6  6

之所以有效，是因为:

print (filtered_df.groupby(level=0)['A'].transform('size'))
seq_name  type
seqA      wt      3
          m1      3
          m2      3
seqB      wt      3
          m1      3
          m2      3
seqC      wt      1
Name: A, dtype: int32

print (filtered_df.groupby(level=0)['A']
                  .transform('size')
                  .eq(len(var_l))
                  .rename(None))
seq_name  type
seqA      wt       True
          m1       True
          m2       True
seqB      wt       True
          m1       True
          m2       True
seqC      wt      False
dtype: bool

关于python - 通过要求在 MultiIndex 级别中存在多个项目来过滤 pandas 数据框，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42866834/

python - 通过要求在 MultiIndex 级别中存在多个项目来过滤 pandas 数据框

上一篇：python - Robot Framework 中包含子目录的 Zip 目录

下一篇：python - 如何排序 unsort : array(1). array(2) -> array(3).unsort (reversed array(1).sort