python - 基于另一个数组提取部分数组的最有效方法

标签 python numpy indexing

我有一个包含大约 1.5 亿个点的时间序列。我需要放大 300 万点。也就是说,我需要在这个包含 1.5 亿个点的时间序列中提取围绕这 300 万个感兴趣区域中的每一个的 100 个时间点

尝试:

 def get_waveforms(data,spiketimes,lookback=100,lookahead=100):
      answer = zeros((len(spiketimes),(lookback+lookahead)))
      duration = len(data)
      for i in xrange(len(spiketimes)):
          if(spiketimes[i] - lookback) > 0 and spiketimes[i] + lookahead) < duration:
               answer[i,:] = data[(spiketimes[i]-lookback):(spiketimes[i]+lookahead)]
      return answer

这会耗尽我 Mac 上的所有可用内存。如果我尝试传递 len(array) > 100000 的数组,它就会爆炸。是否有内存效率更高或(希望)更优雅的方法来基于另一个数组提取部分数组?

相关 This答案是相关的。但是,我不确定如何应用它并避免循环。我是否会有效地用 bool 矩阵的列一遍又一遍地为时间序列向量编制索引?

最佳答案

您正在分配一个 200 * len(spiketimes) float 数组,因此对于您的 100,000 个项目,spiketimes 应该只有大约 160 MB,这看起来不像很多。另一方面,如果达到 1,000,000 个 spiketimes,则 1.6 GB 的单个阵列对于某些系统来说可能有些吃力。如果你有内存,你可以用这样的东西矢量化提取:

def get_waveforms(data, spiketimes, lookback=100, lookahead=100) :
    offsets = np.arange(-lookback, lookahead)
    indices = spiketimes + offsets[:, None]
    ret = np.take(data, indices, mode='clip')
    ret[:, spiketimes < lookback] = 0
    ret[:, spiketimes + lookahead >= len(data)] = 0
    return ret

太靠近data 边缘的spiketimes 的处理模仿了带有循环的函数中的情况。

当您拥有如此多的数据时,明智的做法是对数据进行观察。这更难矢量化(或者至少我还没有想出如何),但由于您没有复制任何数据,python 循环不会慢很多:

def get_waveforms_views(data, spiketimes, lookback=100, lookahead=100) :
    ret = []
    for j in spiketimes :
        if j < lookback or j + lookahead >= len(data) :
            ret.append(None)
        else :
            ret.append(data[j - lookback:j + lookahead])
    return ret

具有以下测试数据:

data_points, num_spikes = 1000000, 10000

data = np.random.rand(data_points)
spiketimes = np.random.randint(data_points, size=(num_spikes))

我得到这些时间:

In [2]: %timeit get_waveforms(data, spiketimes)
1 loops, best of 3: 320 ms per loop

In [3]: %timeit get_waveforms_views(data, spiketimes)
1 loops, best of 3: 313 ms per loop

关于python - 基于另一个数组提取部分数组的最有效方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15015859/

相关文章:

python - 如何从 numpy ndarray 创建 numpy ndarray?

python - Pandas 系列 any() 与 all()

python - 使用 Python 操作(非常)长的数据文件

python - lastrowid() 替代方案或语法,而不在 sqlite python 中使用执行?

python - Django,抓取 : What's the best way to detect "changes" while scraping?

python - Numpy 内存不足

python - 计算一个数组在另一个数组中没有重叠的出现次数

magento - 无法初始化索引器进程

mysql - 删除文件排序以改进mysql查询

python - 当您知道列和行引用时如何更改数据框中的字段值