我的程序是用 C++ 编写的,我使用 Eigen 库进行其中的矩阵运算。里面有一个巨大的矩阵乘积,维度分别是50000*1000和1000*50000。所以我尝试调用 MKL 库中的 BLAS 函数来提高性能。然后在调用 dgemm 函数时出现段错误。
这是代码
double alpha = 1, beta = 0;
double *s1;
MKL_INT mm1 = q, nn1 = q, kk1 = ncol1;
s1 = (double *)malloc(q*q*sizeof(double));
cout << 14 << endl;
cblas_dgemm(CblasColMajor, CblasNoTrans, CblasNoTrans,mm1, nn1, kk1, alpha, V.data(), mm1, A01.data(), kk1, beta, s1, mm1);
该代码适用于小维度。我编译代码:
icpc lapack.cpp generators.cpp SimpleRNG.cpp example.cpp -lmkl_intel_ilp64 -lmkl_sequential -lmkl_core -lpthread -lm -DMKL_ILP64 -o new_example.o
或
icpc lapack.cpp generators.cpp SimpleRNG.cpp example.cpp -lmkl_intel_lp64 -lmkl_sequential -lmkl_core -lpthread -lm -o new_example.o
即:我尝试了 LP64 接口(interface)和 ILP64 接口(interface),但它们都不起作用,有人可以帮我解决这个问题吗?我在Linux服务器上运行程序,内存充足。
非常感谢!
最佳答案
下面的讨论假设:
sizeof(double) == 8
MKL_INT
是int
,并且sizeof(int) == 4
sizeof(std::size_t) == 8
CHAR_BIT == 8
这些在典型的 64 位系统中应该是正确的。
这一行发生了一些非常有趣的事情:
s1 = (double *)malloc(q*q*sizeof(double));
如果q
是50000
,那么q*q
就是2500000000
。如果 q
是 int
,那么这会导致有符号整数溢出,从而导致未定义的行为。在这种特殊情况下,编译器可能会简单地环绕(有效地减去 232),导致 -1794967296
。
但是,当您随后将 -1794967296
与 sizeof(double)
相乘时,它的类型是 std::size_t
,它是一个无符号整数类型,有趣的事情发生了。如果 size_t
是 64 位,那么编译器需要将 -1794967296
转换为一个无符号的 64 位数字,这个转换在概念上是通过添加 264 到号码,给你 18446744071914584320
。当您将其乘以 sizeof(double)
时,它会再次溢出,但无符号溢出是明确定义的,并且对于 64 位操作数返回模 264 的结果,因此最终结果是 18446744059349813248
。 (有关计算,请参阅此处的 demo)。
因此,您的原始代码最终会尝试分配 18446744059349813248
字节的内存(这几乎是 16 exabytes)。哎哟。显然分配会失败并返回一个空指针。由于您没有检查返回值,稍后您会遇到段错误。
当你将其重写为
s1 = (double *)malloc(sizeof(double) * q * q);
然后 sizeof(double) * q
首先被评估。此乘法会将 q
转换为 std::size_t
,但由于 q
为正数,因此转换不会影响其值。因此,结果是明确定义的,并且是一个 std::size_t
,其值为 400000
。第二个乘法同样定义明确 - q
再次转换为 std::size_t
,结果乘法产生 20000000000
,它不不会溢出 std::size_t
,因此您的 malloc
调用实际上需要 20GB 的内存。
关于c++ - 从 Eigen 调用 Lapack 函数时出现段错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25216564/