c++ - 如何让这个并行求和函数使用 vector 指令？

作为一个业余项目，我正在研究多线程求和算法，在处理足够大的数组时，它的性能优于 std::accumulate。首先，我将描述我对此的思考过程，但如果您想直接跳到问题，请随时向下滚动到该部分。

我在网上找到了很多并行求和算法，其中大部分采用以下方法:

template <typename T, typename IT>
T parallel_sum(IT _begin, IT _end, T _init) {
    const auto size = distance(_begin, _end);
    static const auto n = thread::hardware_concurrency();
    if (size < 10000 || n == 1) return accumulate(_begin, _end, _init);
    vector<future<T>> partials;
    partials.reserve(n);
    auto chunkSize = size / n;
    for (unsigned i{ 0 }; i < n; i++) {
        partials.push_back(async(launch::async, [](IT _b, IT _e){
            return accumulate(_b, _e, T{0});
        }, next(_begin, i*chunkSize), (i==n-1)?_end:next(_begin, (i+1)*chunkSize)));
    }
    for (auto& f : partials) _init += f.get();
    return _init;
}

假设有 2 个线程可用(如 thread::hardware_concurrency() 所报告)，此函数将按以下方式访问内存中的元素:

作为一个简单的例子，我们在这里查看 8 个元素。两条线用红色和蓝色表示。箭头显示线程希望加载数据的位置。一旦细胞变成红色或蓝色，它们就被相应的线程加载了。

这种方法(至少在我看来)不是最好的，因为线程同时从内存的不同部分加载数据。如果你有很多处理线程，比如在 8 核超线程 CPU 上有 16 个，甚至更多，CPU 的预取器将很难跟上所有这些来自完全不同的内存部分的读取(假设数组太大而无法放入缓存)。这就是为什么我认为第二个示例应该更快:

template <typename T, typename IT>
T parallel_sum2(IT _begin, IT _end, T _init) {
    const auto size = distance(_begin, _end);
    static const auto n = thread::hardware_concurrency();
    if (size < 10000 || n == 1) return accumulate(_begin, _end, _init);
    vector<future<T>> partials;
    partials.reserve(n);
    for (unsigned i{ 0 }; i < n; i++) {
        partials.push_back(async(launch::async, [](IT _b, IT _e, unsigned _s){
            T _ret{ 0 };
            for (; _b < _e; advance(_b, _s)) _ret += *_b;
            return _ret;
        }, next(_begin, i), _end, n));
    }
    for (auto& f : partials) _init += f.get();
    return _init;
}

此函数以一种顺序方式访问内存，如下所示:

这样预取器总是能够保持领先，因为所有线程都访问内存的相同部分，所以应该有更少的缓存未命中和更快的加载时间，至少我是这么认为的。

问题是，虽然这在理论上一切都很好，但这些的实际编译版本显示出不同的结果。第二个要慢得多。我更深入地研究了这个问题，发现为实际添加生成的汇编代码非常不同。这些是每个执行加法的“热循环”(请记住，第一个在内部使用 std::accumulate，所以您基本上是在看它):

请忽略百分比和颜色，我的分析器有时会出错。

我注意到 std::accumulate 在编译时使用了 AVX2 vector 指令 vpaddq。这可以一次添加四个 64 位整数。我认为第二个版本不能向量化的原因是每个线程一次只访问一个元素，然后跳过一些。 vector 加法将加载几个连续的元素，然后将它们加在一起。显然这是不可能做到的，因为线程不会连续加载元素。我尝试在第二个版本中手动展开 for 循环，并且该 vector 指令确实出现在程序集中，但由于某种原因整个过程变得非常缓慢。

以上结果和汇编代码来自 gcc 编译版本，但同样的行为也可以在 Visual Studio 2015 中观察到，尽管我没有查看它生成的汇编。

那么有没有办法在保留这种顺序内存访问模型的同时利用 vector 指令呢？或者，与函数的第一个版本相比，这种内存访问方法是否有帮助？

我写了一点benchmark program ，它已准备好编译和运行，以防万一您想亲自查看性能。

PS.: 我的主要目标硬件是现代 x86_64(比如 haswell 等)。

最佳答案

每个核心都有自己的缓存和预取。

您应该将每个线程视为独立执行的程序。在这种情况下，第二种方法的缺点将很明显:您不能在单线程中访问顺序数据。有不应该处理的孔，所以线程不能使用 vector 指令。

另一个问题:CPU 以 block 的形式预取数据。由于不同缓存级别的工作方式，更改 block 内的某些数据标志着缓存已过时，如果其他内核尝试对同一数据 block 执行某些操作，则需要等待直到第一个内核写入更改并再次检索该 block 。基本上在您的第二个示例中，缓存总是过时的，您会看到原始内存访问性能。

处理并发处理的最佳方法是以大的连续 block 处理数据。

关于c++ - 如何让这个并行求和函数使用 vector 指令？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34245119/

c++ - 如何让这个并行求和函数使用 vector 指令？

上一篇：python - 在 C++ 中通过继承自定义 PyObject

下一篇：c++ - 如何将整数转换为 std::u16string (C++11)？