python - numpy ndarray 是均匀的和矩形的(子数组必须具有相同的长度)因为它在引擎盖下使用 C 数组吗？

Numpy ndarray 必须具有相同类型的所有元素，并且同一级别上的所有子数组必须具有相同的长度。这些属性也是 C 多维数组的属性。 numpy ndarray 是否具有这些属性纯粹是因为它是在 C 数组之上实现的？创建快速多维数组实现是否真的需要这些属性？

最佳答案

Is it the case that numpy ndarray have those properties purely because it is implemented on top of C array?

没有。在内部使用 C 并不是真正导致 Numpy 做出此选择的原因。实际上，Numpy 数组只是内部(动态分配)的原始连续内存缓冲区。 Numpy 实际上并没有在其自己的实现中使用 C 数组。它只使用C 指针。 View 是引用缓冲区并保存一些元信息(如步幅、形状、类型等)的 Python 对象。Python 用户总是在 View 上操作，因为无法直接读取/写入原始缓冲区。

事实上，在 C 中创建交错数组(即包含可变大小数组的数组)并不是很难，但需要手动创建(即标准不直接支持)。对于 2D 交错数组，这通常是通过分配 T* 项的数组然后为 N 个子数组执行 N 分配来完成的。不保证子数组是连续存储的。

要点是交错数组效率不高，因为内存碎片/扩散和不连续。此外，Numpy 提供的许多功能在交错数组中无法(有效地)实现。例如，为具有步幅的其他 View 创建 subview 将很棘手。在多轴上工作的操作(例如 np.sum(2D_array, axis=0))必须重新定义，以便它对锯齿状数组有意义。这也会使实现变得更加复杂。

因此，他们选择不实现交错数组，而只选择 ND 数组。请注意，Numpy 最初是为科学家创建的，尤其是很少需要锯齿状数组但关心高性能的物理学家。通过分配 2 个 Numpy 数组可以相对有效地实现锯齿状数组:1 个数组连接所有行和一个包含开始/结束偏移量的基于切片的数组。

Are those properties really required to create a fast multidimensional array implementation?

拥有同类类型对性能至关重要。动态类型强制对每个昂贵的项目进行类型检查。此外，动态类型通常需要额外的昂贵间接(例如，数组只存储指针/引用而不是对象本身)并且对对象的访问会导致内存碎片/扩散。与加法/减法/乘法等基本数值运算相比，此类运算非常昂贵。此外，对象的生命周期肯定必须仔细控制(例如垃圾收集)，就像 CPython 所做的那样。事实上，CPython 的列表列表表现得像那样，而且效率很低。您可以创建 Numpy 数组对象的 Numpy 数组，但这也是低效的。

至于矩形阵列，它取决于用例，但这至少对矩阵乘法和矩阵 vector 乘积至关重要(因为 BLAS 在连续数组可能在行之间有一个跨度)，以及不在最连续的维度上工作的操作(编译器可以通过恒定跨度 进行更积极的优化)。更不用说上面指定的额外开销(例如额外检查和内存碎片/扩散)。

关于python - numpy ndarray 是均匀的和矩形的(子数组必须具有相同的长度)因为它在引擎盖下使用 C 数组吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/72331363/

python - numpy ndarray 是均匀的和矩形的(子数组必须具有相同的长度)因为它在引擎盖下使用 C 数组吗？

上一篇：vite - 在 vite 脚本中禁用哈希 - chrome 扩展的多个入口点

下一篇：c - 仅删除用户输入，而不是整个屏幕