performance - 使用 Cython 优化简单的 CPU 绑定(bind)循环并替换列表

标签 performance loops numpy cython

我正在尝试评估一些方法,但我遇到了性能上的绊脚石。

为什么我的 cython 代码这么慢?我的期望是代码的运行速度会快很多(对于只有 256 ** 2 个条目的 2d 循环可能是纳秒),而不是毫秒。

这是我的测试结果:

$ python setup.py build_ext --inplace; python test.py
running build_ext
        counter: 0.00236220359802 sec
       pycounter: 0.00323309898376 sec
      percentage: 73.1 %

我的初始代码如下所示:
#!/usr/bin/env python
# encoding: utf-8
# filename: loop_testing.py

def generate_coords(dim, length):
    """Generates a list of coordinates from dimensions and size
    provided.

    Parameters:
        dim -- dimension
        length -- size of each dimension

    Returns:
        A list of coordinates based on dim and length
    """
    values = []
    if dim == 2:
        for x in xrange(length):
            for y in xrange(length):
                values.append((x, y))

    if dim == 3:
        for x in xrange(length):
            for y in xrange(length):
                for z in xrange(length):
                    values.append((x, y, z))

    return values

这可以满足我的需要,但速度很慢。对于给定的暗淡,长度 = (2, 256),我在 iPython 上看到的时间约为 2.3 毫秒。

为了加快速度,我开发了一个 cython 等价物(我认为它是一个等价物)。
#!/usr/bin/env python
# encoding: utf-8
# filename: loop_testing.pyx
# cython: boundscheck=False
# cython: wraparound=False

cimport cython
from cython.parallel cimport prange

import numpy as np
cimport numpy as np


ctypedef int DTYPE

# 2D point updater
cpdef inline void _counter_2d(DTYPE[:, :] narr, int val) nogil:
    cdef:
        DTYPE count = 0
        DTYPE index = 0
        DTYPE x, y

    for x in range(val):
        for y in range(val):
            narr[index][0] = x
            narr[index][1] = y
            index += 1

cpdef DTYPE[:, :] counter(dim=2, val=256):
    narr = np.zeros((val**dim, dim), dtype=np.dtype('i4'))
    _counter_2d(narr, val)
    return narr

def pycounter(dim=2, val=256):
    vals = []
    for x in xrange(val):
        for y in xrange(val):
            vals.append((x, y))
    return vals

以及时间的调用:
#!/usr/bin/env python
# filename: test.py
"""
Usage:
    test.py [options]
    test.py [options] <val>
    test.py [options] <dim> <val>

Options:
    -h --help       This Message
    -n              Number of loops [default: 10]
"""

if __name__ == "__main__":
    from docopt import docopt
    from timeit import Timer

    args = docopt(__doc__)
    dim = args.get("<dim>") or 2
    val = args.get("<val>") or 256
    n = args.get("-n") or 10
    dim = int(dim)
    val = int(val)
    n = int(n)

    tests = ['counter', 'pycounter']
    timing = {}
    for test in tests:
        code = "{}(dim=dim, val=val)".format(test)
        variables = "dim, val = ({}, {})".format(dim, val)
        setup = "from loop_testing import {}; {}".format(test, variables)
        t = Timer(code, setup=setup)
        timing[test] = t.timeit(n) / n

    for test, val in timing.iteritems():
        print "{:>20}: {} sec".format(test, val)
    print "{:>20}: {:>.3} %".format("percentage", timing['counter'] / timing['pycounter'] * 100)

并且作为引用,用于构建 cython 代码的 setup.py:
from distutils.core import setup
from Cython.Build import cythonize
import numpy

include_path = [numpy.get_include()]

setup(
    name="looping",
    ext_modules=cythonize('loop_testing.pyx'),  # accepts a glob pattern
    include_dirs=include_path,
)

编辑:
工作版本链接:https://github.com/brianbruggeman/cython_experimentation

最佳答案

这个 Cython 代码很慢,因为 narr[index][0] = x分配,它严重依赖 Python C-API。使用,narr[index, 0] = x相反,被翻译成纯C,并解决了这个问题。

正如@perimosocordiae 所指出的,使用cythonize带注释绝对是调试此类问题的方法。

在某些情况下,在 setup.py 中明确指定编译标志也是值得的。对于 gcc,

setup(
   [...]
   extra_compile_args=['-O2', '-march=native'],
   extra_link_args=['-O2', '-march=native'])

假设合理的默认编译标志,这应该不是必需的。但是,例如,在我的 Linux 系统上,默认设置似乎根本没有优化,添加上述标志会显着提高性能。

关于performance - 使用 Cython 优化简单的 CPU 绑定(bind)循环并替换列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30631091/

相关文章:

mysql - 在 MySQL 中进行模式匹配的有效方法是什么?

javascript - 将名称添加到数组并随机挑选一个(Javascript)

python - 值错误 : Unknown format code 'f' for object of type 'str'

python - 在 numpy 矩阵行上应用函数并连接结果?

python - Scipy - 非线性方程组的所有解

mongodb - 何时在 MongoDB 上使用 CouchDB,反之亦然

c - 高效地读取 C 中的扁平化文件

c++ - 删除 vector 行时如何更快?

java - 在java中编写这种for循环的优雅方式

c++ - 使用变量获取 STL 容器的 size_type