python - Numpy:将数组的每个元素与所有其他元素进行比较(± 常数)

标签 python arrays performance numpy scientific-computing

我有一个一维 Numpy 数组 A长度N .对于每个元素 x在数组中,我想知道数组中所有元素在[x-eps]范围内的比例是多少; x+eps ],其中 eps是一个常数。 N数量级为 15,000。
目前我是这样做的(最小的例子):

import numpy as np

N = 15000
eps = 0.01
A = np.random.rand(N, 1)
prop = np.array([np.mean((A >= x - eps) & (A <= x + eps)) for x in A])
.. 在我的电脑上大约需要 1 秒。
我的问题:有没有更有效的方法来做到这一点?
编辑:我认为@jdehesa 在评论中的建议如下:
prop = np.isclose(A, A.T, atol=eps, rtol=0).mean(axis=1)
这是一个很好的简洁解决方案,但没有速度优势(在我的电脑上)。

最佳答案

这是一个很好的设置来利用 np.searchsorted ——

sidx = A.argsort()
ridx = np.searchsorted(A, A+eps, 'right', sorter=sidx)
lidx = np.searchsorted(A, A-eps, 'left', sorter=sidx)
out = ridx - lidx 
时间——
In [71]: N = 15000
    ...: eps = 0.01
    ...: A = np.random.rand(N)

In [72]: %timeit np.array([np.sum((A >= x - eps) & (A <= x + eps)) for x in A])
560 ms ± 5.15 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [73]: %%timeit
    ...: sidx = A.argsort()
    ...: ridx = np.searchsorted(A, A+eps, 'right', sorter=sidx)
    ...: lidx = np.searchsorted(A, A-eps, 'left', sorter=sidx)
    ...: out = ridx - lidx
5.35 ms ± 47.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
通过预排序进一步改进:
In [81]: %%timeit
    ...: sidx = A.argsort()
    ...: b = A[sidx]
    ...: ridx = np.searchsorted(b, A+eps, 'right')
    ...: lidx = np.searchsorted(b, A-eps, 'left')
    ...: out = ridx - lidx
3.93 ms ± 19.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
如评论中所述,对于 mean等效版本,只需将最终数组输出除以 N .

关于python - Numpy:将数组的每个元素与所有其他元素进行比较(± 常数),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64485475/

相关文章:

python - 关于 Ubuntu 18.04 LTS 和 python 的问题

c - 警告 : assignment makes integer from pointer without a cast, 排序参数

c - 为什么我的 char * 返回不同的值?

Android 性能优化 - 如何将缓存的位图绘制回 TextView

CSS 性能 - 分组还是不分组?

python - BadKeyError : Invalid string key incorrect padding

python - tkinter 中的子类标签

python - lambda 函数可以在 Python 中递归调用自身吗?

c# - string[] 的笛卡尔积与自身直接在 C# 中没有重复/克隆

c++ - C++中最快的输入法是什么