python - 在 Pandas 系列上成对应用函数

标签 python pandas dataframe set frozenset

我有一个 pandas 系列,其元素构成 frozensets:

data = {0: frozenset({'apple', 'banana'}),
     1: frozenset({'apple', 'orange'}),
     2: frozenset({'banana'}),
     3: frozenset({'kumquat', 'orange'}),
     4: frozenset({'orange'}),
     5: frozenset({'orange', 'pear'}),
     6: frozenset({'orange', 'pear'}),
     7: frozenset({'apple', 'banana', 'pear'}),
     8: frozenset({'banana', 'persimmon'}),
     9: frozenset({'apple'}),
     10: frozenset({'banana'}),
     11: frozenset({'apple'})}

tokens = pd.Series(data); tokens

0           (apple, banana)
1           (orange, apple)
2                  (banana)
3         (orange, kumquat)
4                  (orange)
5            (orange, pear)
6            (orange, pear)
7     (apple, banana, pear)
8       (persimmon, banana)
9                   (apple)
10                 (banana)
11                  (apple)
Name: Tokens, dtype: object

我想成对地应用一个函数。例如,tokens.diff 给出了连续行之间的集合差异:

0                   NaN
1              (orange)
2              (banana)
3     (orange, kumquat)
4                    ()
5                (pear)
6                    ()
7       (apple, banana)
8           (persimmon)
9               (apple)
10             (banana)
11              (apple)
Name: Tokens, dtype: object

我想要同样的东西,但我想要一个连续行上的集合并集,而不是集合差异。所以,我理想情况下喜欢:

0                                 NaN
1             (orange, apple, banana)
2             (banana, orange, apply)
3           (orange, kumquat, banana)
4                   (orange, kumquat)
                                  ...

如何使用 Pandas 实现这一目标?我知道我可以用 zip 和一个列表组合来做到这一点,但希望有更好的方法。

最佳答案

几种方式

选项 1] 列表理解

In [3631]: pd.Series([x[0].union(x[1])
                      for x in zip(tokens, tokens.shift(-1).fillna(''))],
                     index=tokens.index)
Out[3631]:
0              (orange, banana, apple)
1              (orange, apple, banana)
2            (orange, kumquat, banana)
3                    (orange, kumquat)
4                       (orange, pear)
5                       (orange, pear)
6        (orange, pear, banana, apple)
7     (persimmon, pear, banana, apple)
8           (apple, persimmon, banana)
9                      (apple, banana)
10                     (banana, apple)
11                             (apple)
dtype: object

选项2] map

In [3632]: pd.Series(map(lambda x: x[0].union(x[1]), 
                         zip(tokens, tokens.shift(-1).fillna(''))),
                     index=tokens.index)
Out[3632]:
0              (orange, banana, apple)
1              (orange, apple, banana)
2            (orange, kumquat, banana)
3                    (orange, kumquat)
4                       (orange, pear)
5                       (orange, pear)
6        (orange, pear, banana, apple)
7     (persimmon, pear, banana, apple)
8           (apple, persimmon, banana)
9                      (apple, banana)
10                     (banana, apple)
11                             (apple)
dtype: object

选项 3] 使用 concatapply

In [3633]: pd.concat([tokens, tokens.shift(-1).fillna('')],
                     axis=1).apply(lambda x: x[0].union(x[1]), axis=1)
Out[3633]:
0              (orange, banana, apple)
1              (orange, apple, banana)
2            (orange, kumquat, banana)
3                    (orange, kumquat)
4                       (orange, pear)
5                       (orange, pear)
6        (orange, pear, banana, apple)
7     (persimmon, pear, banana, apple)
8           (apple, persimmon, banana)
9                      (apple, banana)
10                     (banana, apple)
11                             (apple)
dtype: object

时间

In [3647]: tokens.shape
Out[3647]: (60000L,)

In [3648]: %timeit pd.Series([x[0].union(x[1]) for x in zip(tokens, tokens.shift(-1).fillna(''))], index=tokens.index)
10 loops, best of 3: 35 ms per loop

In [3649]: %timeit pd.Series(map(lambda x: x[0].union(x[1]), zip(tokens, tokens.shift(-1).fillna(''))), index=tokens.index)
10 loops, best of 3: 40.9 ms per loop

In [3650]: %timeit pd.concat([tokens, tokens.shift(-1).fillna('')], axis=1).apply(lambda x: x[0].union(x[1]), axis=1)
1 loop, best of 3: 2.2 s per loop

不相关,为了 diff 上的数字

In [3653]: %timeit tokens.diff()
10 loops, best of 3: 10.8 ms per loop

关于python - 在 Pandas 系列上成对应用函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46401827/

相关文章:

python - 在 Python 中将输出格式化为固定精度

python - 如何使用来自另一个 DataFrame 对象的数据创建 Pandas DataFrame 对象?

python - 使用 xlrd 引擎在 xls 文件上调用 pands read_excel 时出现 AssertionError

python - 通过追加 pandas 中不同数据帧的列来创建列

python - Python/numpy 中的快速/内置位操作?

python - WindowsPath 无法转换为 unicode

python - 如何让 pandas.read_csv() 从 CSV 文件列中推断出 datetime 和 timedelta 类型?

python - 如何找出 Pandas 数据框的特征?

Python Pandas - 使用 .loc 在多列上使用 AND 和 OR 进行选择

r - 以节省内存的方式增长 data.frame