c++ - 高效的 SSE NxN 矩阵乘法

标签 c++ assembly sse matrix-multiplication simd

我正在尝试通过矩阵乘法实现大矩阵的SSE版本。 我正在寻找一种基于 SIMD 实现的高效算法。

我想要的方法如下:

A(n x m) * B(m x k) = C(n x k)

并且所有矩阵都被视为 16 字节对齐的 float 组。

我在网上搜索了一些描述 8x8 乘法甚至更小的文章。我真的需要它尽可能高效,并且我不想使用 Eigen 库或类似的库。 (更具体地说,只有 SSE3)。

如果有人能帮助我找到一些关于如何开始实现这一点的文章或资源,我将不胜感激。

最佳答案

实现任意大小矩阵-矩阵乘法的主要挑战不是 SIMD 的使用,而是缓存数据的重用。论文Anatomy of High-Performance Matrix Multiplication by Goto and Van de Geijn如果您想实现缓存友好的矩阵-矩阵乘法,则必须阅读此书,并且它还讨论了 SIMD 友好的内核选择。读完这篇论文后,预计经过两周的努力,矩阵-矩阵乘法可以达到机器峰值的 50%。

但是,如果这项工作的目的不是纯粹的学习,我强烈建议使用高度优化的库。在 x86 上,您最好的选择是 OpenBLAS (BSD 许可,支持动态 CPU 调度),BLIS (BSD 许可,可轻松移植到新处理器),以及 Intel MKL (商业版,支持 Intel 处理器上的动态 CPU 调度)。出于性能原因,最好避免使用 ATLAS,除非您的目标是其他库不支持的非常奇特的架构。

关于c++ - 高效的 SSE NxN 矩阵乘法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27158952/

相关文章:

c++ - zig zag字符串的最小编辑距离

assembly - 处理控制传输时的堆栈字节分配

c++ - 如何使用 SSE/AVX 高效地执行 double/int64 转换?

linux - 如何使用中断在 x86 程序集中触发被零除错误异常?

c++ - SSE整数除法?

g++ SSE 内在困境 - 来自内在 "saturates"的值

c++ - 在 C++ 中打印二维字符数组

C++ 'undefined reference to' 错误

c++ - operator new inside 命名空间

linux - FASM 在组装过程中给了我 'error: illegal instruction.'