python - 通过一系列 boolean 掩码过滤一系列列表中的列表元素

标签 python pandas filter boolean series

我有两个系列,如下所示: 系列 1 有 str 列表,而系列 2 有 boolean 表达式的 numpy 数组。

但是我有大约 50,000 行,我想查看基于 boolean 表达式的值,例如

ser1 = pd.Series([[1, 2, 3], [4], [7, 8]])
ser2 = pd.Series([[True, False, True], [False], [True, True]])

ser1

0    [1, 2, 3]
1          [4]
2       [7, 8]
dtype: object

ser2

0    [True, False, True]
1                [False]
2           [True, True]
dtype: object

并且,

Output=[1,3],[],[7,8],....

我尝试了两种方法,但无法正确构建它们,第一种方法花费了太多时间,而第二种方法则不起作用。

output=[]
for i in range(len(Series1)):
output.append(Series1.apply(np.array)[i][Series2[i]])

output=[Series1.apply(lambda x: x[i]) for i in Series2]

您对我获得此输出有什么建议吗?
非常感谢。

最佳答案

ser1 = pd.Series([[1, 2, 3], [4], [7, 8]])
ser2 = pd.Series([[True, False, True], [False], [True, True]])

有几种方法可以做到这一点,但我不建议应用。一种选择是使用 numpy 的 boolean 索引来zip系列并进行过滤:

pd.Series([np.array(x)[y] for x, y in zip(ser1, ser2)])

0    [1, 3]
1        []
2    [7, 8]
dtype: object

如果您需要结果作为列表,请在末尾调用.tolist:

output = pd.Series([list(np.array(x)[y]) for x, y in zip(ser1, ser2)]).tolist()
output
# [[1, 3], [], [7, 8]]
<小时/>

您还可以将其设为具有嵌套列表理解的纯 Python 列表组合。

pd.Series([
    [i for i, j in zip(x, y) if j] for x, y in zip(ser1, ser2)])

0    [1, 3]
1        []
2    [7, 8]
dtype: object

我推荐这个用于小列表,因为将列表转换为 numpy 数组(如第一个解决方案所做的那样)会产生大量开销。

<小时/>

如果可以选择扁平化列表,您应该考虑这样做,因为这可能是最快的选择。

from itertools import chain

ser3 = np.array(list(chain.from_iterable(ser1)))
ser4 = np.array(list(chain.from_iterable(ser2)))

ser3[ser4]
# array([1, 3, 7, 8])

不幸的是,您丢失了输入的结构,但如果这不是问题,那么这就是胜利者。

关于python - 通过一系列 boolean 掩码过滤一系列列表中的列表元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53803384/

相关文章:

css - 使用背景过滤器 : blur 时无法去除滚动时的模糊边缘

python - 使用循环从 Pandas 列构建 Python 字典

python - 在这种情况下使用生成器有什么好处?

python - 潜在错误 : pandas MultiIndex and 0-d sized values

python - 如何将数据框唯一值与列表进行比较?

python - Pandas 到 Excel(合并标题列)

python - 按星期几排序列?

javascript - 应用过滤器的元素上的平滑不透明度过渡

string - Clojure:删除第一个空格分隔的字符

Python 文件 list