我有两个系列,如下所示: 系列 1 有 str 列表,而系列 2 有 boolean 表达式的 numpy 数组。
但是我有大约 50,000 行,我想查看基于 boolean 表达式的值,例如
ser1 = pd.Series([[1, 2, 3], [4], [7, 8]])
ser2 = pd.Series([[True, False, True], [False], [True, True]])
ser1
0 [1, 2, 3]
1 [4]
2 [7, 8]
dtype: object
ser2
0 [True, False, True]
1 [False]
2 [True, True]
dtype: object
并且,
Output=[1,3],[],[7,8],....
我尝试了两种方法,但无法正确构建它们,第一种方法花费了太多时间,而第二种方法则不起作用。
output=[]
for i in range(len(Series1)):
output.append(Series1.apply(np.array)[i][Series2[i]])
output=[Series1.apply(lambda x: x[i]) for i in Series2]
您对我获得此输出有什么建议吗?
非常感谢。
最佳答案
ser1 = pd.Series([[1, 2, 3], [4], [7, 8]])
ser2 = pd.Series([[True, False, True], [False], [True, True]])
有几种方法可以做到这一点,但我不建议应用
。一种选择是使用 numpy 的 boolean 索引来zip
系列并进行过滤:
pd.Series([np.array(x)[y] for x, y in zip(ser1, ser2)])
0 [1, 3]
1 []
2 [7, 8]
dtype: object
如果您需要结果作为列表,请在末尾调用.tolist
:
output = pd.Series([list(np.array(x)[y]) for x, y in zip(ser1, ser2)]).tolist()
output
# [[1, 3], [], [7, 8]]
<小时/>
您还可以将其设为具有嵌套列表理解的纯 Python 列表组合。
pd.Series([
[i for i, j in zip(x, y) if j] for x, y in zip(ser1, ser2)])
0 [1, 3]
1 []
2 [7, 8]
dtype: object
我推荐这个用于小列表,因为将列表转换为 numpy 数组(如第一个解决方案所做的那样)会产生大量开销。
<小时/>如果可以选择扁平化列表,您应该考虑这样做,因为这可能是最快的选择。
from itertools import chain
ser3 = np.array(list(chain.from_iterable(ser1)))
ser4 = np.array(list(chain.from_iterable(ser2)))
ser3[ser4]
# array([1, 3, 7, 8])
不幸的是,您丢失了输入的结构,但如果这不是问题,那么这就是胜利者。
关于python - 通过一系列 boolean 掩码过滤一系列列表中的列表元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53803384/