python - 如果 PyModule_Add* 函数失败,C 扩展是否应该在模块初始化中失败?

标签 python python-c-api cpython python-internals python-c-extension

我刚刚查看了一些为 Python 创建 C 扩展模块的代码,该模块不包含足够的错误检查。在大多数情况下这很容易,但当涉及到模块初始化函数时我不确定。

为了讨论方便,我们取(精简的)module-init function for itertools (是的,CPython 提供的那个):

m = PyModule_Create(&itertoolsmodule);
if (m == NULL)
    return NULL;

for (i=0 ; typelist[i] != NULL ; i++) {
    if (PyType_Ready(typelist[i]) < 0)
        return NULL;
    name = strchr(typelist[i]->tp_name, '.');
    assert (name != NULL);
    Py_INCREF(typelist[i]);
    PyModule_AddObject(m, name+1, (PyObject *)typelist[i]);
}

return m;

它确实检查 PyModule_Create 是否失败(这很好),然后检查 PyType_Ready 是否失败(这很好),但它不会 Py_DECREF( m) 在这种情况下(这是令人惊讶/令人困惑的),但它完全无法检查 PyModule_AddObject 是否失败。根据it's documentation可能失败:

Add an object to module as name. This is a convenience function which can be used from the module’s initialization function. This steals a reference to value. Return -1 on error, 0 on success.

好吧,也许为了防止无法添加类型而破坏模块初始化似乎有点矫枉过正。但即使他们不想完全中止创建模块:它应该泄漏 typelist[i] 的引用,对吗?

许多内置 CPython C 模块不会在 module-init 函数中进行彻底的错误检查和处理(这可能就是我正在修复的 C 扩展也没有它们的原因),而且它们通常非常严格存在此类问题和潜在的泄漏。所以我的问题基本上是:错误检查在 module-init 函数中是否重要,特别是当涉及 PyModule_Add* 函数(如 PyModule_AddObject)时?或者可以像 CPython 在很多地方一样省略它们吗?

最佳答案

我通常赞成在使用 Python 的 C API 时进行严格的错误检查 - 人们经常编写长的、多步骤的函数,不检查任何错误,然后当它神秘地失败时表现出困惑。在这种情况下(模块初始化),您可以证明错误检查稍微宽松是合理的:

主要原因是,这些函数只会因 C 代码中的错误而真正失败,并且它们会重复执行此操作 - 对于毫无戒心的用户来说,它们几乎不可能不可预测地失败。服用PyModule_AddObject例如,它可能会失败,因为:

  • 传递的第一个参数不是模块(你的错误!)
  • 传递的对象是NULL(您应该提前检查这一点)
  • 该模块没有 __dict__ (我不知道这是如何发生的,但我看不出它是偶然发生在您刚刚创建的模块上的)<
  • PyDict_SetItemString 失败(很可能是由 PyUnicode_FromString 失败引起的)。

正如您在评论中指出的那样,后者可能是由 MemoryError 引起的(这可能随时发生并且不可预测)。但是,当您因分配约 10 个字符串而出现 MemoryError 时,Python 解释器不太可能继续运行更长时间。

所以我认为我的结论是“如果你的模块似乎工作正常,你可能不需要这个错误检查,但如果事情出了问题,那么它对于找出问题所在是有用的”。我可能要添加的一件事是在返回模块之前对错误进行最终检查:

if (PyErr_Occurred()) return NULL;
/* or */
if (PyErr_Occurred()) {
    /* print a warning? */
    PyErr_Clear();
    return m;
}

这样做的原因是,如果设置了错误指示符但不返回 NULL,Python 的行为可能会非常奇怪(您会在奇怪的时间引发没有意义的异常) )。因此,快速的最终检查具有一定的值(value)。

<小时/>

关于模块初始化失败时的引用处理:显然,正确执行它是“最好的”,但我认为您可以证明跳过它是合理的。这是运行一次的代码(因此您不会因为反复丢失少量内存而丢失大量内存)。如果发生错误,那么最可能的选择是程序中止(因此所有内存都被恢复)。即使您不中止,泄漏的大小也可能非常小(实际上约为 100 字节)。

关于python - 如果 PyModule_Add* 函数失败,C 扩展是否应该在模块初始化中失败?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46687928/

相关文章:

python - 切片端点被无形地截断

macos - 编写 .cargo/config.toml 以允许 rust 代码被 python 导入

python - Pandas - groupby,其中每行都有多个值存储在列表中

python - Pandas:时间转换器独立工作,但在读取 csv 文件时不工作

python - 无法在 Windows 上安装 IMDbPY

python - 用 C : Pass a list to PyArg_ParseTuple 扩展 python

python - 嵌套列表理解范围

python - 使用单图像 tensorflow keras 进行预测

python - 汇总列表列表

python - 使用 Python/C API 传递 C 指针