在探索 Cython 编译步骤时,我发现我需要在 setup.py 中明确链接 C 库,如 math。但是,numpy 不需要这样的步骤。为什么这样? numpy 是通过通常的 python 导入机制导入的吗?如果是这样,我们不需要在 Cython 中显式链接任何扩展模块?
我试图翻阅官方文档,但不幸的是,没有解释何时需要显式链接以及何时自动处理。
最佳答案
cdef
函数的调用或多或少对应于跳转到内存中的一个地址 - 应该从中读取/执行命令的地址。问题是这个地址是如何提供的。有一些情况我们需要考虑:
A. 内联函数
这些函数的代码是内联的,或者函数的定义在同一个翻译单元中,因此链接器在链接时(甚至编译器在编译时)知道地址 - 不需要额外的库。
一个例子是只有头文件的库。
结果: setup.py
中只应提供包含路径。
B. 静态链接
我们需要的定义/功能在另一个翻译单元/库中——跳转的目标地址是在链接时计算的,之后不能再更改。
一个例子是添加到扩展定义的附加 c/cpp 文件或静态库。
结果:应将静态库添加到 setup.py
,即库路径和库名称以及包含路径。
C. 动态链接
共享对象/dll 中提供了必要的功能。跳转到的地址是在运行时从加载器计算的,可以在程序启动时通过交换加载的共享对象来替换。
一个例子是 stdlibc++(通常由 g++ 自动添加)或 libm,它们不会被 gcc 自动添加到链接器命令中。
后果:动态库应该添加到 setup.py
,即 library-path 和 library name,也许 r-path + include 路径。必须在运行时提供共享对象/dll。在这个 SO-post 中可以找到更多(可能不止一个人想知道的)关于使用动态库的 Cython/Python 的信息。
D. 通过指针调用
仅当我们通过函数名称调用函数时才需要链接器。如果我们通过函数指针调用它,我们不需要链接器/加载器,因为函数的地址是已知的——函数指针中的值。
示例:Cython 生成的模块使用此机制来启用对通过 pxd
-file 导出的 cdef 函数的访问。它创建了一个函数指针的数据结构(它作为变量 __pyx_capi__
存储在模块本身中),一旦通过 ldopen
(或任何 Windows 的等效代码)加载 so/dll,加载器就会填充该数据结构。字典中的查找只在模块加载并缓存函数地址时发生一次,因此运行时的调用几乎没有开销。
我们可以检查它,例如通过
#foo.pyx:
cdef void doit():
print("doit")
#foo.pxd
cdef void doit()
>>> cythonize -3 -i foo.pyx
>>> python -c "import foo; print(foo.__pyx_capi__)"
{'doit': <capsule object "void (void)" at 0x7f7b10bb16c0>}
现在,从另一个模块调用
cdef
函数只是跳转到相应的地址。结果:我们需要导入所需的功能。
Numpy 有点复杂,因为它使用了 A 和 D 的复杂组合,以便将符号解析推迟到运行时,因此不需要共享对象/链接时运行时!)。
numpy -pxd 文件中的一些功能可以直接使用,因为它们是内联的(或者甚至只是定义),例如
PyArray_NDIM
,基本上来自 ndarraytypes.h
的所有内容。这就是人们可以毫不费力地使用 cython 的 ndarrays 的原因。其他功能(基本上来自
ndarrayobject.h
的所有内容)在初始化步骤中不调用 np.import_array()
就无法访问,例如 PyArray_FromAny
。为什么?答案在
__multiarray_api.h
的头文件ndarrayobject.h
中,在PyArray_FromAny
中是included,但是在git-repository中找不到,因为在安装过程中是generated,可以查到PyArray_CheckFromAny
的定义:...
static void **PyArray_API=NULL; //usually...
...
#define PyArray_CheckFromAny \
(*(PyObject * (*)(PyObject *, PyArray_Descr *, int, int, int, PyObject *)) \
PyArray_API[108])
...
PyArray_API
不是函数的名称,而是定义保存在 NULL
中的函数指针,当模块第一次加载时,它没有被初始化(即是 PyArray_CheckFromAny
)!顺便说一句,还有一个名为 _import_array
的(私有(private))函数,它是函数指针实际指向的对象 - 因为公共(public)版本是一个定义,链接时没有名称冲突......最后一块拼图 - 函数
np.import_array
(或多或少是 _import_array
背后的工作马)是一个内联函数(case A ),所以只需要包含路径,就可以使用它。__pyx_capi__
使用与 Cython 的 _ARRAY_API
类似的方法来获取函数指针:该字段称为 PyArray_API
,可以通过以下方式进行检查:>>> import numpy.core._multiarray_umath as macore
>>> macore._ARRAY_API
<capsule object NULL at 0x7f17d85f3810>
关于如何初始化
numpy/math.pxd
的更多信息可以在我的这个 SO-answer 中找到。但是,当使用 ojit_code 的功能时,必须静态链接 numpy 的数学库(例如参见这个 SO-question )。
关于python - 在 Cython 模块中加载与链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58155766/