python - 计算所有列差异的最快方法

标签 python performance python-3.x pandas numpy

我有一个包含所有 float 列的数据框。例如:

import numpy as np
import pandas as pd

df = pd.DataFrame(np.arange(12.0).reshape(3,4), columns=list('ABCD'))
#    A    B     C     D
# 0  0.0  1.0   2.0   3.0
# 1  4.0  5.0   6.0   7.0
# 2  8.0  9.0  10.0  11.0

我想计算所有列组合(例如 A-B、A-C、B-C 等)的列差异。

例如,所需的输出类似于:

 A_B   A_C   A_D   B_C   B_D   C_D
-1.0  -2.0  -3.0  -1.0  -2.0  -1.0
-1.0  -2.0  -3.0  -1.0  -2.0  -1.0
-1.0  -2.0  -3.0  -1.0  -2.0  -1.0

由于列数可能很大,我想尽可能高效/快速地进行计算。我假设我会通过首先将数据帧转换为 numpy 数组来获得很大的速度提升,所以我会这样做,但我想知道是否有任何其他策略可能会导致性能大幅提升。也许一些矩阵代数或多维数据格式技巧导致不必遍历所有唯一组合。欢迎提出任何建议。该项目使用 Python 3。

最佳答案

这篇文章中列出了两种 NumPy 性能方法 - 一种是完全矢量化的方法,另一种是一个循环。

方法 #1

def numpy_triu1(df):          
    a = df.values
    r,c = np.triu_indices(a.shape[1],1)
    cols = df.columns
    nm = [cols[i]+"_"+cols[j] for i,j in zip(r,c)]
    return pd.DataFrame(a[:,r] - a[:,c], columns=nm)

sample 运行-

In [72]: df
Out[72]: 
     A    B     C     D
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0

In [78]: numpy_triu(df)
Out[78]: 
   A_B  A_C  A_D  B_C  B_D  C_D
0 -1.0 -2.0 -3.0 -1.0 -2.0 -1.0
1 -1.0 -2.0 -3.0 -1.0 -2.0 -1.0
2 -1.0 -2.0 -3.0 -1.0 -2.0 -1.0

方法 #2

如果我们可以接受没有专门列名的数组作为输出或数据框,这是另一个 -

def pairwise_col_diffs(a): # a would df.values
    n = a.shape[1]
    N = n*(n-1)//2
    idx = np.concatenate(( [0], np.arange(n-1,0,-1).cumsum() ))
    start, stop = idx[:-1], idx[1:]
    out = np.empty((a.shape[0],N),dtype=a.dtype)
    for j,i in enumerate(range(n-1)):
        out[:, start[j]:stop[j]] = a[:,i,None] - a[:,i+1:]
    return out

运行时测试

由于 OP 提到多维数组输出也适用于他们,这里是其他作者的基于数组的方法 -

# @Allen's soln
def Allen(arr):
    n = arr.shape[1]
    idx = np.asarray(list(itertools.combinations(range(n),2))).T
    return arr[:,idx[0]]-arr[:,idx[1]]

# @DYZ's soln
def DYZ(arr):
    result = np.concatenate([(arr.T - arr.T[x])[x+1:] \
            for x in range(arr.shape[1])]).T
    return result
来自@Gerges Dib 的帖子的基于

pandas 的解决方案未包含在内,因为与其他帖子相比,它的速度非常慢。

时间 -

我们将使用三种数据集大小 - 1005001000:

In [118]: df = pd.DataFrame(np.random.randint(0,9,(3,100)))
     ...: a = df.values
     ...: 

In [119]: %timeit DYZ(a)
     ...: %timeit Allen(a)
     ...: %timeit pairwise_col_diffs(a)
     ...: 
1000 loops, best of 3: 258 µs per loop
1000 loops, best of 3: 1.48 ms per loop
1000 loops, best of 3: 284 µs per loop

In [121]: df = pd.DataFrame(np.random.randint(0,9,(3,500)))
     ...: a = df.values
     ...: 

In [122]: %timeit DYZ(a)
     ...: %timeit Allen(a)
     ...: %timeit pairwise_col_diffs(a)
     ...: 
100 loops, best of 3: 2.56 ms per loop
10 loops, best of 3: 39.9 ms per loop
1000 loops, best of 3: 1.82 ms per loop

In [123]: df = pd.DataFrame(np.random.randint(0,9,(3,1000)))
     ...: a = df.values
     ...: 

In [124]: %timeit DYZ(a)
     ...: %timeit Allen(a)
     ...: %timeit pairwise_col_diffs(a)
     ...: 
100 loops, best of 3: 8.61 ms per loop
10 loops, best of 3: 167 ms per loop
100 loops, best of 3: 5.09 ms per loop

关于python - 计算所有列差异的最快方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44147284/

相关文章:

python - 多个模型上的 Alembic 迁移

c++ - 初始化 3D vector 的最有效方法是什么?

python - 访问文字上的属性适用于所有类型,但不适用于 `int` ;为什么?

python - 如何使用网格移动图像?

python - 获取列表中所有可能的有序子列表

python - 将 aiohttp 与多处理结合起来

python - 按重复状态划分的 Pandas 组

java - Java 中 ArrayList 和 LinkedList 的区别——性能的原因

android - 调用jni函数时android上的ndk pthread vs java线程

python - 如何在 Django 中排除表单中的继承字段?