python - 我们如何通过使用 float 和 int 窗口大小的平均方法对一维数组值进行下采样?

标签 python numpy scipy signal-processing downsampling

我正在尝试通过使用平均方法将固定的 [Mx1] 向量向下采样到任何给定的 [Nx1] 维度。我有一个动态窗口大小,每次都会根据所需的输出数组而变化。所以,在某些情况下,我很幸运,得到的 int 窗口大小完全符合窗口大小,有时我得到的是 float 作为窗口大小。但是,我如何使用 float 大小的窗口从固定的 [Mx1] 向量中生成一个大小为 [Nx1] 的向量?

下面是我试过的代码:

chunk = 0.35
def fixed_meanVector(vec, chunk):
   size = (vec.size*chunk) #size of output according to the chunk
   R    = (vec.size/size) #windows size to transform array into chunk size
   pad_size = math.ceil(float(vec.size)/R)*R - vec.size
   vec_padded = np.append(vec, np.zeros(pad_size)*np.NaN)

   print "Org Vector: ",vec.size, "output Size: ",size, "Windows Size: ",R, "Padding size", pad_size
   newVec = scipy.nanmean(vec_padded.reshape(-1,R), axis=1)
   print "New Vector shape: ",newVec.shape
   return newVec

print "Word Mean of N values Similarity: ",cosine(fixed_meanVector(vector1, chunk)
                                                      ,fixed_meanVector(vector2, chunk))

输出:

New Vector shape:  (200,)
Org Vector:  400 output Size:  140.0 Windows Size:  2.85714285714 Padding  size 0.0
New Vector shape:  (200,)
0.46111661289

在上面的例子中,我需要在 Nx1 ([140x1 ]) 维度。因此,动态窗口大小 [2.857x1] 可用于下采样 [Mx1] 向量。但是,在这种情况下,我得到一个 [200x1] 的向量而不是 [140x1] 作为我的输出,因为它提升到 flour(2.85) 它的 float 窗口使用 -> [2x1] 进行下采样。 填充为零,因为我的窗口大小非常适合新的 [Nx1] 维度。那么,有什么方法可以使用这种类型的窗口大小来对 [Mx1] 向量进行下采样吗?

最佳答案

一旦 M%N>0 就可以对其进行矢量化,但并不自然。因为用于构建结果数组的单元格数量不是恒定的,在您的情况下在 3 到 4 之间。

自然的方法是遍历数组,在每个 bin 进行调整:

enter image description here

想法是填充每个容器直到溢出。然后切断溢出(进位)并将其保留在下一个垃圾箱中。使用 int 算术,最后一个进位始终为 null。

代码:

def resized(data,N):
    M=data.size
    res=empty(N,data.dtype)
    carry=0
    m=0
    for n in range(N):
        sum = carry
        while m*N - n*M < M :
            sum += data[m]
            m += 1
        carry = (m-(n+1)*M/N)*data[m-1]
        sum -= carry
        res[n] = sum*N/M
    return res

测试:

In [5]: resized(np.ones(7),3)
Out[5]: array([ 1.,  1.,  1.])

In [6]: %timeit resized(rand(400),140)
    1000 loops, best of 3: 1.43 ms per loop

它有效,但不是很快。幸运的是,您可以使用 numba 加速它:

from numba import jit
resized2=jit(resized)             

In [7]: %timeit resized2(rand(400),140)
1 loops, best of 3: 8.21 µs per loop

可能比任何纯 numpy 解决方案都快(此处为 N=3*M):

IN [8]: %timeit rand(402).reshape(-1,3).mean(1)
10000 loops, best of 3: 39.2 µs per loop

请注意,如果 M>N 也有效。

In [9]: resized(arange(4.),9)
Out[9]: array([ 0.  ,  0.  ,  0.75,  1.  ,  1.5 ,  2.  ,  2.25,  3.  ,  3.  ])

关于python - 我们如何通过使用 float 和 int 窗口大小的平均方法对一维数组值进行下采样?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36284100/

相关文章:

python - 仅包含 np 数组的一列上的 Pandas 相关性

python - 按绝对值对 pandas 系列进行排序

python - 加快python中循环的求和

python - scipy curve_fit 指数拟合失败

python - 零阶贝塞尔函数 Python

python - 如果我使用多处理,函数返回值类型错误

Python:如何使用不区分大小写的 attrgetter 对对象列表进行排序

python - 将变量从 django 中的 views.py 传递给所有模板

python - 保存前从 numpy 3D 矩阵中提取选定的列和行

Python:让 scipy 使用 numpy.float128 而不是 numpy.float64?