c++ - 为什么在乘法之前转置矩阵会导致很大的加速

标签 c++ optimization matrix-multiplication

我听说乘法之前的转置矩阵会大大加快运算速度,因为缓存局部性。所以我写了一个简单的 C++ 程序来测试行优先排序(编译需要 C++11 和 boost)。

结果令人震惊:7.43 秒对 0.94 秒。但是我不明白为什么它会加速。事实上,在第二个版本(第一个转置)中,乘法代码通过 stride-1 模式访问数据,并且比第一个版本具有更好的局部性。但是,要转置矩阵 B,也必须非顺序地访问数据,并且也会导致大量缓存未命中。分配内存和复制数据的开销也应该是不可忽略的。那么,为什么第二个版本会大大加快代码速度?

#include <iostream>
#include <vector>
#include <boost/timer/timer.hpp>
#include <random>

std::vector<int> random_ints(size_t size)
{
    std::vector<int> result;
    result.reserve(size);
    std::random_device rd;
    std::mt19937 engine(rd());
    std::uniform_int_distribution<int> dist(0, 100);
    for (size_t i = 0; i < size; ++i)
        result.push_back(dist(engine));
    return result;
}

// matrix A: m x n; matrix B: n x p; matrix C: m x n;
std::vector<int> matrix_multiply1(const std::vector<int>& A, const std::vector<int>& B, size_t m, size_t n, size_t p)
{
    boost::timer::auto_cpu_timer t;
    std::vector<int> C(m * p);
    for (size_t i = 0; i < m; ++i)
    {
        for (size_t j = 0; j < p; ++j)
        {
            for (size_t k = 0; k < n; ++k)
            {
                C[i * m + j] += A[i * m + k] * B[k * n + j];
                // B is accessed non-sequentially
            }
        }
    }
    return C;
}

// matrix A: m x n; matrix B: n x p; matrix C: m x n;
std::vector<int> matrix_multiply2(const std::vector<int>& A, const std::vector<int>& B, size_t m, size_t n, size_t p)
{
    boost::timer::auto_cpu_timer t;
    std::vector<int> C(m * p), B_transpose(n * p);

    // transposing B
    for (size_t i = 0; i < n; ++i)
    {
        for (size_t j = 0; j < p; ++j)
        {
            B_transpose[i + j * p] = B[i * n + j];
            // B_transpose is accessed non-sequentially
        }
    }

    // multiplication
    for (size_t i = 0; i < m; ++i)
    {
        for (size_t j = 0; j < p; ++j)
        {
            for (size_t k = 0; k < n; ++k)
            {
                C[i * m + j] += A[i * m + k] * B_transpose[k + j * p];
                // all sequential access
            }
        }
    }
    return C;
}

int main()
{
    const size_t size = 1 << 10;
    auto A = random_ints(size * size);
    auto C = matrix_multiply1(A, A, size, size, size);
    std::cout << C.front() << ' ' << C.back() << std::endl; // output part of the result
    C = matrix_multiply2(A, A, size, size, size);
    std::cout << C.front() << ' ' << C.back() << std::endl; // compare with output of algorithm 1
    return 0;
}

最佳答案

乘法比转置涉及更多的访问,因此它占据了执行时间。

只需查看 for 循环 header ,您就可以很清楚地看到这一点:

// transpose
for (size_t i = 0; i < n; ++i)
    for (size_t j = 0; j < p; ++j)
        ...

// multiplication
for (size_t i = 0; i < m; ++i)
    for (size_t j = 0; j < p; ++j)
        for (size_t k = 0; k < n; ++k)
            ...

有了额外的嵌套,第二个显然需要更多的工作。

关于c++ - 为什么在乘法之前转置矩阵会导致很大的加速,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19580456/

相关文章:

c++ - 迭代shared_ptr vector

c++ - 转换整个 vector

c++ - 为什么在下面的代码中复制构造函数是私有(private)的时会出现错误 C2248?

c++ - 数组 -> 另一个空 int 数组混淆

c++ - Boost Pool 的自由效率是 O(n) 还是 O(1)

python - 使用 Python Pandas 数据框进行乘法

mysql - 优化 MySQL 插入以处理数据流

java - 如何更快地搜索 byte[] 中的字节?

Python numpy memmap 矩阵乘法

python - Numpy 矩阵与 2D 元素的乘法