python - numpy ndarray 是均匀的和矩形的(子数组必须具有相同的长度)因为它在引擎盖下使用 C 数组吗?

标签 python c numpy multidimensional-array numpy-ndarray

Numpy ndarray 必须具有相同类型的所有元素,并且同一级别上的所有子数组必须具有相同的长度。这些属性也是 C 多维数组的属性。 numpy ndarray 是否具有这些属性纯粹是因为它是在 C 数组之上实现的?创建快速多维数组实现是否真的需要这些属性?

最佳答案

Is it the case that numpy ndarray have those properties purely because it is implemented on top of C array?

没有。在内部使用 C 并不是真正导致 Numpy 做出此选择的原因。实际上,Numpy 数组只是内部(动态分配)的原始连续 内存缓冲区。 Numpy 实际上并没有在其自己的实现中使用 C 数组。它只使用C 指针。 View 是引用缓冲区并保存一些元信息(如步幅、形状、类型等)的 Python 对象。Python 用户总是在 View 上操作,因为无法直接读取/写入原始缓冲区。

事实上,在 C 中创建交错数组(即包含可变大小数组的数组)并不是很难,但需要手动创建(即标准不直接支持)。对于 2D 交错数组,这通常是通过分配 T* 项的数组然后为 N 个子数组执行 N 分配来完成的。不保证子数组是连续存储的。

要点是交错数组效率不高,因为内存碎片/扩散和不连续。此外,Numpy 提供的许多功能在交错数组中无法(有效地)实现。例如,为具有步幅的其他 View 创建 subview 将很棘手。在多轴上工作的操作(例如 np.sum(2D_array, axis=0))必须重新定义,以便它对锯齿状数组有意义。这也会使实现变得更加复杂。

因此,他们选择不实现交错数组,而只选择 ND 数组。请注意,Numpy 最初是为科学家创建的,尤其是很少需要锯齿状数组但关心高性能的物理学家。通过分配 2 个 Numpy 数组可以相对有效地实现锯齿状数组:1 个数组连接所有行和一个包含开始/结束偏移量的基于切片的数组。

Are those properties really required to create a fast multidimensional array implementation?

拥有同类类型对性能至关重要。动态类型强制对每个昂贵的项目进行类型检查。此外,动态类型通常需要额外的昂贵间接(例如,数组只存储指针/引用而不是对象本身)并且对对象的访问会导致内存碎片/扩散。与加法/减法/乘法等基本数值运算相比,此类运算非常昂贵。此外,对象的生命周期肯定必须仔细控制(例如垃圾收集),就像 CPython 所做的那样。事实上,CPython 的列表列表表现得像那样,而且效率很低。您可以创建 Numpy 数组对象的 Numpy 数组,但这也是低效的。

至于矩形阵列,它取决于用例,但这至少对矩阵乘法和矩阵 vector 乘积至关重要(因为 BLAS连续 数组可能在行之间有一个跨度),以及不在最连续的维度上工作的操作(编译器可以通过恒定跨度 进行更积极的优化)。更不用说上面指定的额外开销(例如额外检查和内存碎片/扩散)。

关于python - numpy ndarray 是均匀的和矩形的(子数组必须具有相同的长度)因为它在引擎盖下使用 C 数组吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72331363/

相关文章:

python - Sqlite不使用默认值

C - For循环做一个简单的操作,不增加计数器

c - 我无法刷新标准输入。如何在 C 中刷新标准输入?

python - 声明大小未知的 2D numpy 数组

python - numpy数组中有多少内存? RAM 是限制因素吗?

python - Ubuntu 18.04 python 2.7 urllib 请求没有获取数据

python - Pandas,根据其他列值删除重复行

python:将字符串转换为类对象

c - 我使用 'exit(EXIT_FAILURE);' ,但随后出现错误

python - 如何完全重置警告