Python - 根据数组值将数组拆分为多个数组

标签 python arrays numpy split

我有一个列表需要分成多个不同大小的列表。原始列表中的值随机增加大小,直到 split 点,在继续增加之前值下降。值在拆分后必须保持顺序。

例如 原始列表

[100, 564, 572, 578, 584, 590, 596, 602, 608, 614, 620, 625, 631, 70, 119, 
125, 130, 134, 139, 144, 149, 154, 159, 614, 669, 100, 136, 144, 149, 153, 
158, 163, 167, 173, 179, 62, 72, 78, 82, 87, 92, 97, 100, 107, 112, 117, 
124, 426, 100, 129, 135, 140, 145, 151]

拆分后:

[100, 564, 572, 578, 584, 590, 596, 602, 608, 614, 620, 625, 631]
[70, 119, 125, 130, 134, 139, 144, 149, 154, 159, 614, 669]
[100, 136, 144, 149, 153, 158, 163, 167, 173, 179]
[62, 72, 78, 82, 87, 92, 97, 100, 107, 112, 117, 124, 426]
[100, 129, 135, 140, 145, 151]

我已经搜索了一个解决方案,发现 numpy.wherenumpy.diff 可能是候选者,但我不确定如何实现。

感谢您的帮助!

最佳答案

方法 #1

使用 NumPy 的 numpy.split 将数组列表作为输出 -

import numpy as np

arr = np.array(a) # a is input list
out = np.split(arr,np.flatnonzero(arr[1:] < arr[:-1])+1)

方法 #2

使用循环理解直接拆分列表,从而避免 numpy.split 以提高效率 -

idx = np.r_[0, np.flatnonzero(np.diff(a)<0)+1, len(a)]
out = [a[idx[i]:idx[i+1]] for i in range(len(idx)-1)]

给定样本的输出-

In [52]: idx = np.r_[0, np.flatnonzero(np.diff(a)<0)+1, len(a)]

In [53]: [a[idx[i]:idx[i+1]] for i in range(len(idx)-1)]
Out[53]: 
[[100, 564, 572, 578, 584, 590, 596, 602, 608, 614, 620, 625, 631],
 [70, 119, 125, 130, 134, 139, 144, 149, 154, 159, 614, 669],
 [100, 136, 144, 149, 153, 158, 163, 167, 173, 179],
 [62, 72, 78, 82, 87, 92, 97, 100, 107, 112, 117, 124, 426],
 [100, 129, 135, 140, 145, 151]]

我们在这里使用 np.diff,在这种情况下它会输入一个列表,然后计算微分。因此,更好的替代方法是转换为数组,然后使用它的移位切片之间的比较,而不是实际计算微分值。因此,我们也可以像这样得到 idx -

arr = np.asarray(a)
idx = np.r_[0, np.flatnonzero(arr[1:] < arr[:-1])+1, len(arr)]

让我们计时,看看是否有任何改进 -

In [84]: a = np.random.randint(0,100,(1000,100)).cumsum(1).ravel().tolist()

In [85]: %timeit np.r_[0, np.flatnonzero(np.diff(a)<0)+1, len(a)]
100 loops, best of 3: 3.24 ms per loop

In [86]: arr = np.asarray(a)

In [87]: %timeit np.asarray(a)
100 loops, best of 3: 3.05 ms per loop

In [88]: %timeit np.r_[0, np.flatnonzero(arr[1:] < arr[:-1])+1, len(arr)]
10000 loops, best of 3: 77 µs per loop

In [89]: 3.05+0.077
Out[89]: 3.127

因此,转换和比较方法的边际改进:np.asarray(a) 消耗 大部分运行时间。

关于Python - 根据数组值将数组拆分为多个数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43675124/

相关文章:

python : threads can only be started once

r - 绑定(bind)不同长度的表

Python, hstack 不同类型的列numpy数组(列向量)

python - 使用对象数组进行条件索引

python - 调整 PIL 像素值的更快方法

python - s3 通过 boto 连接到 'folder'

python - 阿拉伯字体未使用 python 插入 mysql

python - 当行可以属于多个组时,对 pandas Series 或 DataFrame 的行进行分组

javascript - 在 JavaScript 中用随机数创建长度为 n 的数组

c++ - 大文件中的 C++ 文件读取错误