c++ - 自动矢量化不起作用

标签 c++ optimization vectorization sse simd

我试图让我的代码自动矢量化,但它不起作用。

int _tmain(int argc, _TCHAR* argv[])
{
    const int N = 4096;
    float x[N];
    float y[N];
    float sum = 0;

    //create random values for x and y 
    for (int i = 0; i < N; i++)
    {
        x[i] = rand() >> 1;
        y[i] = rand() >> 1;
    }

    for (int i = 0; i < N; i++){
        sum += x[i] * y[i];
    }
}

这两个循环都没有向量化,但我真的只对第二个循环感兴趣。

我正在使用 visual studio express 2013 并使用 /O2/Qvec-report:2 进行编译(报告循环是否被矢量化)选项。编译时,我收到以下消息:

--- Analyzing function: main
c:\users\...\documents\visual studio 2013\projects\intrin3\intrin3\intrin3.cpp(28) : info C5002: loop not vectorized due to reason '1200'
c:\users\...\documents\visual studio 2013\projects\intrin3\intrin3\intrin3.cpp(41) : info C5002: loop not vectorized due to reason '1305'

原因'1305',可见HERE ,表示“编译器无法识别此循环的正确矢量化类型信息。”我不太确定这是什么意思。有什么想法吗?

将第二个循环拆分成两个循环后:

for (int i = 0; i < N; i++){
    sumarray[i] = x[i] * y[i];
}

for (int i = 0; i < N; i++){
    sum += sumarray[i];
}

现在上述循环中的第一个进行矢量化,但第二个没有进行矢量化,同样出现错误代码 1305。

最佳答案

错误 1305 的发生是因为优化器没有对循环进行向量化,因为未使用值 sum。只需添加 printf("%d\n", sum) 即可解决此问题。但是随后您会收到一个新的错误代码 1105“循环包含无法识别的缩减操作”。要解决此问题,您需要设置 /fp:fast

原因是浮点运算不是关联的,使用 SIMD 或 MIMD(即使用多线程)的归约需要关联。通过使用更宽松的浮点模型,您可以进行缩减。

我刚刚使用以下代码对其进行了测试,默认的 fp:precise 不进行矢量化,而当我使用 fp:fast 时,它进行矢量化。

#include <stdio.h>
int main() {
    const int N = 4096;
    float x[N];
    float y[N];
    float sum = 0;
    for (int i = 0; i < N; i++){
        sum += x[i] * y[i];
    }
    printf("sum %f\n", sum);
}

关于您关于使用 rand() 函数进行循环的问题,rand() 函数不是 SIMD 函数。它不能被矢量化。您需要找到一个 SIMD rand() 函数。我不知道一个。另一种方法是预先计算一个随机数数组,然后使用该数组。无论如何,rand() 是一个可怕的随机数生成器,仅对某些玩具箱有用。考虑使用 Mersenne twister PRNG。

关于c++ - 自动矢量化不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23378889/

相关文章:

matlab - 对三角化表面进行子采样时保留颜色 : get indices from reducepatch?

c++ - EXPECT_NO_THROW语句的gtest捕获结果

c++ - OpenGL 纹理加速 - 查看相关纹理

python - Pandas,根据列值的唯一子集追加列

r - 在 R 中使用 nloptr 不会更改初始值

matlab - 条件向量化(循环内)

c++ - 为什么内联声明不是不完整的类型?

c++ - unsigned long long 溢出错误?

hibernate - 如何避免 HQL 和 Criteria 中不必要的选择和连接

python - 将单个数据帧值与同一列中的前 10 个值进行比较