c++ - 如何使用 gcc 编译 SIMD 代码

标签 c++ gcc g++ simd

我在 SIMD 中编写了这段矩阵乘法代码,我可以在 Visual Studio 中编译它,但现在我需要在 Ubuntu 中使用 gcc/g++ 编译它。

我应该使用哪些命令来编译它?我是否需要对代码本身进行任何更改?

#include <stdio.h>
#include <stdlib.h>
#include <xmmintrin.h>
#include <iostream>
#include <conio.h>
#include <math.h>
#include <ctime>

using namespace std;

#define MAX_NUM 1000
#define MAX_DIM 252

int main()
{
    int l = MAX_DIM, m = MAX_DIM, n = MAX_DIM;
    __declspec(align(16)) float a[MAX_DIM][MAX_DIM], b[MAX_DIM][MAX_DIM],c[MAX_DIM][MAX_DIM],d[MAX_DIM][MAX_DIM];

    srand((unsigned)time(0));

    for(int i = 0; i < l; ++i)
    {
        for(int j = 0; j < m; ++j)
        {
            a[i][j] = rand()%MAX_NUM;
        }
    }

    for(int i = 0; i < m; ++i)
    {
        for(int j = 0; j < n; ++j)
        {
            b[i][j] = rand()%MAX_NUM;
        }
    }

    clock_t Time1 = clock();

    for(int i = 0; i < m; ++i)
    {
        for(int j = 0; j < n; ++j)
        {
            d[i][j] = b[j][i];
        }
    }

    for(int i = 0; i < l; ++i)
    {
        for(int j = 0; j < n; ++j)
        {
            __m128 *m3 = (__m128*)a[i];
            __m128 *m4 = (__m128*)d[j];
            float* res;
            c[i][j] = 0;
            for(int k = 0; k < m; k += 4)
            {
                __m128 m5 = _mm_mul_ps(*m3,*m4);
                res = (float*)&m5;
                c[i][j] += res[0]+res[1]+res[2]+res[3];
                m3++;
                m4++;
            }
        }
        //cout<<endl;
    }

    clock_t Time2 = clock();
    double TotalTime = ((double)Time2 - (double)Time1)/CLOCKS_PER_SEC;
    cout<<"Time taken by SIMD implmentation is "<<TotalTime<<"s\n";

    Time1 = clock();

    for(int i = 0; i < l; ++i)
    {
        for(int j = 0; j < n; ++j)
        {
            c[i][j] = 0;
            for(int k = 0; k < m; k += 4)
            {
                c[i][j] += a[i][k] * b[k][j];
                c[i][j] += a[i][k+1] * b[k+1][j];
                c[i][j] += a[i][k+2] * b[k+2][j];
                c[i][j] += a[i][k+3] * b[k+3][j];

            }
        }
    }

    Time2 = clock();
    TotalTime = ((double)Time2 - (double)Time1)/CLOCKS_PER_SEC;
    cout<<"Time taken by normal implmentation is "<<TotalTime<<"s\n";

    getch();
    return 0;
}

最佳答案

您需要启用 SSE,例如

$ g++ -msse3 -O3 -Wall -lrt foo.cpp -o foo

您还需要更改:

declspec(align(16))

这是特定于 Windows 的,更便携:

__attribute__ ((aligned(16)))

关于c++ - 如何使用 gcc 编译 SIMD 代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10366670/

相关文章:

c++ - 对模板方法的特定特化使用不同签名的正确方法

c - 为什么需要execstack才能在堆上执行代码?

c++ - 在clang++预处理器中确定gcc-toolchain版本

c - 从不兼容的指针类型获取初始化上下文

c++ - 如何在 Cygwin 中禁用由 g++ 生成的扩展 .exe?

c++ - 面向对象框架中成员函数返回std::vector.size()的效率

C++ + RethinkDb = 有可能吗?

c++ - "g++"不被识别为内部或外部命令,MinGW

c++ - 在未排序的整数数组中找到最小元素比 O (n) 更快?

gcc - aarch64-linux-gnu-g++ 交叉编译为 arm64 错误