c++ - 高效的 SSE NxN 矩阵乘法

标签 c++ assembly sse matrix-multiplication simd

我正在尝试通过矩阵乘法实现大型矩阵的 SSE 版本。我正在寻找一种基于 SIMD 实现的高效算法。

我想要的方法是这样的:

A(n x m) * B(m x k) = C(n x k)

并且所有矩阵都被认为是 16 字节对齐的 float 组。

我在网上搜索了一下，发现了一些描述 8x8 甚至更小乘法的文章。我真的需要它尽可能高效，我不想使用 Eigen 库或类似的库。 (只有 SSE3 更具体)。

因此，如果有人能帮我找到一些关于如何开始实现它的文章或资源，我将不胜感激。

最佳答案

实现任意大小的矩阵-矩阵乘法的主要挑战不是 SIMD 的使用，而是缓存数据的重用。论文Anatomy of High-Performance Matrix Multiplication by Goto and Van de Geijn如果你想实现缓存友好的矩阵-矩阵乘法，这是必读的，它还讨论了内核的选择以使其对 SIMD 友好。看完这篇论文，希望经过两周的努力，在矩阵-矩阵乘法上达到50%的机器峰值。

但是，如果这项工作的目的不是纯粹的学习，我强烈建议使用高度优化的库。在 x86 上你最好的选择是 OpenBLAS (BSD 许可，支持动态 CPU 调度)，BLIS (BSD 许可，可轻松移植到新处理器)和 Intel MKL (商业，支持英特尔处理器上的动态 CPU 调度)。出于性能原因，最好避免使用 ATLAS，除非您的目标是其他库不支持的非常奇特的架构。

关于c++ - 高效的 SSE NxN 矩阵乘法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21503882/

上一篇：c++ - Win32 控制台禁用系统菜单按钮

下一篇：c++ - QMediaplayer 从自定义 QIODevice 流式传输，在 Mac OS (10.9) 上加密

相关文章：

c++ - 程序化系统调用 WDCI 意外行为(权限提升)

c++ - 你会创建一个私有(private)类成员来消除多级函数调用吗？

assembly - ljmp(64 位模式)被#GP(0) 拒绝。为什么？

x86 - SSE 内在函数 : Convert 32-bit floats to UNSIGNED 8-bit integers

c++ - 如何在 C++ 中有效地添加两个 vector

c++ - 将数组中的某些整数相加

c++ - 如何限制参数类型只允许 std::initializer_list<size_t> 或 std::array<size_t, N>？

assembly - 如何在 68k 汇编或一般情况下实现浮点 IEEE754 除法？

assembly - 为什么 LOOP 这么慢？

assembly - 在没有AVX2的情况下，如何使用字节中的位设置ymm寄存器中的双字？ (vmovmskps的倒数)