python - 在 Cython 模块中加载与链接

标签 python cython

在探索 Cython 编译步骤时,我发现我需要在 setup.py 中明确链接 C 库,如 math。但是,numpy 不需要这样的步骤。为什么这样? numpy 是通过通常的 python 导入机制导入的吗?如果是这样,我们不需要在 Cython 中显式链接任何扩展模块?

我试图翻阅官方文档,但不幸的是,没有解释何时需要显式链接以及何时自动处理。

最佳答案

cdef 函数的调用或多或少对应于跳转到内存中的一个地址 - 应该从中读取/执行命令的地址。问题是这个地址是如何提供的。有一些情况我们需要考虑:

A. 内联函数

这些函数的代码是内联的,或者函数的定义在同一个翻译单元中,因此链接器在链接时(甚至编译器在编译时)知道地址 - 不需要额外的库。

一个例子是只有头文件的库。

结果: setup.py 中只应提供包含路径。

B. 静态链接

我们需要的定义/功能在另一个翻译单元/库中——跳转的目标地址是在链接时计算的,之后不能再更改。

一个例子是添加到扩展定义的附加 c/cpp 文件或静态库。

结果:应将静态库添加到 setup.py ,即库路径和库名称以及包含路径。

C. 动态链接

共享对象/dll 中提供了必要的功能。跳转到的地址是在运行时从加载器计算的,可以在程序启动时通过交换加载的共享对象来替换。

一个例子是 stdlibc++(通常由 g++ 自动添加)或 libm,它们不会被 gcc 自动添加到链接器命令中。

后果:动态库应该添加到 setup.py ,即 library-path 和 library name,也许 r-path + include 路径。必须在运行时提供共享对象/dll。在这个 SO-post 中可以找到更多(可能不止一个人想知道的)关于使用动态库的 Cython/Python 的信息。

D. 通过指针调用

仅当我们通过函数名称调用函数时才需要链接器。如果我们通过函数指针调用它,我们不需要链接器/加载器,因为函数的地址是已知的——函数指针中的值。

示例:Cython 生成的模块使用此机制来启用对通过 pxd -file 导出的 cdef 函数的访问。它创建了一个函数指针的数据结构(它作为变量 __pyx_capi__ 存储在模块本身中),一旦通过 ldopen(或任何 Windows 的等效代码)加载 so/dll,加载器就会填充该数据结构。字典中的查找只在模块加载并缓存函数地址时发生一次,因此运行时的调用几乎没有开销。

我们可以检查它,例如通过

#foo.pyx:
cdef void doit():
    print("doit")
#foo.pxd
cdef void doit()

>>> cythonize -3 -i foo.pyx
>>> python -c "import foo; print(foo.__pyx_capi__)" 
{'doit': <capsule object "void (void)" at 0x7f7b10bb16c0>}

现在,从另一个模块调用 cdef 函数只是跳转到相应的地址。

结果:我们需要导入所需的功能。

Numpy 有点复杂,因为它使用了 A D 的复杂组合,以便将符号解析推迟到运行时,因此不需要共享对象/链接时运行时!)。

numpy -pxd 文件中的一些功能可以直接使用,因为它们是内联的(或者甚至只是定义),例如 PyArray_NDIM ,基本上来自 ndarraytypes.h 的所有内容。这就是人们可以毫不费力地使用 cython 的 ndarrays 的原因。

其他功能(基本上来自 ndarrayobject.h 的所有内容)在初始化步骤中不调用 np.import_array() 就无法访问,例如 PyArray_FromAny 。为什么?

答案在__multiarray_api.h的头文件ndarrayobject.h中,在PyArray_FromAny中是included,但是在git-repository中找不到,因为在安装过程中是generated,可以查到PyArray_CheckFromAny的定义:

...
static void **PyArray_API=NULL; //usually...
...
#define PyArray_CheckFromAny \
        (*(PyObject * (*)(PyObject *, PyArray_Descr *, int, int, int, PyObject *)) \
         PyArray_API[108])
...
PyArray_API 不是函数的名称,而是定义保存在 NULL 中的函数指针,当模块第一次加载时,它没有被初始化(即是 PyArray_CheckFromAny )!顺便说一句,还有一个名为 _import_array 的(私有(private))函数,它是函数指针实际指向的对象 - 因为公共(public)版本是一个定义,链接时没有名称冲突......

最后一块拼图 - 函数 np.import_array (或多或少是 _import_array 背后的工作马)是一个内联函数(case A ),所以只需要包含路径,就可以使用它。
__pyx_capi__ 使用与 Cython 的 _ARRAY_API 类似的方法来获取函数指针:该字段称为 PyArray_API,可以通过以下方式进行检查:
>>> import numpy.core._multiarray_umath as macore
>>> macore._ARRAY_API
<capsule object NULL at 0x7f17d85f3810>

关于如何初始化 numpy/math.pxd 的更多信息可以在我的这个 SO-answer 中找到。

但是,当使用 ojit_code 的功能时,必须静态链接 numpy 的数学库(例如参见这个 SO-question )。

关于python - 在 Cython 模块中加载与链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58155766/

相关文章:

Python 子进程列无效选项

python - 使用 Django webapp 登录 Azure

python - 在 Cython 函数中使用多种类型的 numpy 数组?

python - 我怎样才能使这个图像处理功能更快?已经尝试过Cython

python - 使用 distutils 重新生成 cython 扩展

python - 使用 PIL 在 Tkinter Canvas 小部件中嵌入图像

python - python 列表中逐个元素求和

python - 无法使用 Gtk.Overlay 覆盖 Gstreamer 视频

python - 你如何让 cimport 在 Cython 中工作?

python - 如何通过多处理在单独的 Python 进程中使用用 Cython 包装的外部 C 库?