我正在尝试并行化两个矩阵A
,B
的乘法。
不幸的是,串行实现仍然比并行实现快,或者加速太慢。 (矩阵尺寸= 512时,加速类似于1.3
)。可能根本上是错的。外面有人可以给我小费吗?
double[][] matParallel2(final double[][] matrixA,
final double[][] matrixB,
final boolean parallel) {
int rows = matrixA.length;
int columnsA = matrixA[0].length;
int columnsB = matrixB[0].length;
Runnable task;
List<Thread> pool = new ArrayList<>();
double[][] returnMatrix = new double[rows][columnsB];
for (int i = 0; i < rows; i++) {
int finalI = i;
task = () -> {
for (int j = 0; j < columnsB; j++) {
// returnMatrix[finalI][j] = 0;
for (int k = 0; k < columnsA; k++) {
returnMatrix[finalI][j] +=
matrixA[finalI][k] * matrixB[k][j];
}
}
};
pool.add(new Thread(task));
}
if (parallel) {
for (Thread trd : pool) {
trd.start();
}
} else {
for (Thread trd : pool) {
trd.run();
}
}
try {
for (Thread trd : pool) {
trd.join();
}
} catch (
Exception e) {
e.printStackTrace();
}
return returnMatrix;
}
最佳答案
根本上没有错。
与几个乘法相比,创建线程意味着巨大的开销。当前,对于512 * 512矩阵,您创建512个线程。您的CPU肯定少于512个内核,因此仅它们中的8个或16个将真正在不同的内核上并行运行,但是其他约500个内核也消耗了创建开销,而没有增加并行执行的时间。
尝试使用您自己的逻辑或使用框架(例如,使用Linux)将线程数限制在更接近CPU内核数的水平。 java.util.concurrent包。
关于java - 并行矩阵乘法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65007123/