performance - CUDA理论带宽与有效带宽

标签 performance cuda bandwidth matrix-multiplication

我有一个 CUDA 内核,它将两个矩阵相乘,其中宽度和高度是我正在使用的 block 大小的倍数。

我使用的 Nvidia Quadro Fx 3800 的理论带宽为 50 Gb/s,但我得到了一些奇怪的结果(有效带宽大于理论带宽)

我将在这里发布一些结果:

With Blocksize 2

[10][10] * [10][10] -> BW=0,02 Gb/s [1000][1000]*[1000][1000] -> BW=69,4 Gb/s

With Blocksize 64

[1000][1000] * [1000][1000] -> BW=486,4 Gb/s [10000][10000] * [10000][10000] -> BW= 45072,12 Gb/s

我从 Nvidia 最佳实践指南中获取了有效带宽公式(我已经简化了它,但它是等效的(除非有一个愚蠢的错误))。 我认为内核很好,因为它与我读过的一些 Nvidia 讲座非常相似(如果不等于),而且还因为它工作正常(据我所知)。

#define blocksize 64
#define HM (10000) 
#define WM (10000) 
#define WN (10000)
#define HN WM 
#define WP WN   
#define HP HM  
#define PTH WM
#define PTW HM

__global__ void nonsquare(float*M, float*N, float*P, int uWM,int uWN)
   {
__shared__ float MS[blocksize][blocksize];
__shared__ float NS[blocksize][blocksize];

int tx=threadIdx.x, ty=threadIdx.y, bx=blockIdx.x, by=blockIdx.y;
int rowM=ty+by*blocksize;
int colN=tx+bx*blocksize;
int Pvalue=0;

for(int m=0; m< uWM/blocksize;m++){
    MS[ty][tx]=M[rowM*uWM+(m*blocksize+tx)];
    NS[ty][tx]=M[colN + uWN*(m*blocksize+ty)];
    __syncthreads();
    for(int k=0;k<blocksize;k++)
        Pvalue+=MS[ty][k]*NS[k][tx];
    P[rowM*WP+colN]=Pvalue;
}

}
int main(){


cudaEvent_t evstart, evstop;
cudaEventCreate(&evstart);
cudaEventCreate(&evstop);

float*M=(float*)malloc(sizeof(float)*HM*WM);
float*N=(float*)malloc(sizeof(float)*HN*WN);

for(int i=0;i<WM*HM;i++)
    M[i]=(float)i;
for(int i=0;i<WN*HN;i++)
    N[i]=(float)i;




float*P=(float*)malloc(sizeof(float)*HP*WP);



float *Md,*Nd,*Pd;
cudaMalloc((void**)&Md,HM*WM*sizeof(float));

cudaMalloc((void**)&Nd,HN*WN*sizeof(float));

cudaMalloc((void**)&Pd,HP*WP*sizeof(float));



cudaMemcpy(Md,M,HM*WM*sizeof(float),cudaMemcpyHostToDevice);

cudaMemcpy(Nd,N,HN*WN*sizeof(float),cudaMemcpyHostToDevice);



dim3 dimBlock(blocksize,blocksize);//(tile_width , tile_width);
dim3 dimGrid(WN/dimBlock.x,HM/dimBlock.y);//(width/tile_width , width/tile_witdh);

cudaEventRecord(evstart,0);

nonsquare<<<dimGrid,dimBlock>>>(Md,Nd,Pd,WM,WN);

cudaEventRecord(evstop,0);
cudaEventSynchronize(evstop);
float time;
cudaEventElapsedTime(&time,evstart,evstop);

cudaMemcpy(P,Pd,WP*HP*sizeof(float),cudaMemcpyDeviceToHost);

    cudaFree(Md);
cudaFree(Nd);
cudaFree(Pd);


    printf("\ntime spent:%f",time);
float Bandwidth=(HM*WM*4+WN*HN*4+HP*WP*4)/(time*1000000); /
printf("\nEffective Bandwidth:%f Gb/s\n",Bandwidth);
    }

提前致谢

最佳答案

我认为内核只是默默地失败了。

  1. 您检查之后是否有任何错误 内核调用?

  2. 代码可以工作吗?

  3. 您有什么结果 时间安排?

关于performance - CUDA理论带宽与有效带宽,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5395901/

相关文章:

c# - 检查一个字符是否等于多个其他字符,分支越少越好

python - 如何知道安装了 numba 或 tensorflow 的 python 代码中每个 block 的最大线程数?

postgresql - postgres,服务器通过VBS意外关闭了连接

python - 在 Python 中将键添加到字典或将值附加到列表是否更快?

c++ - 在 Android 上进行实时图形编程的最佳语言是什么?

c - 指向指针别名的指针和 restrict 关键字

python - 比丘达; nvcc 致命 : Visual Studio configuration file '(null)' could not be found

添加新节点后,hadoop 数据节点使用过多带宽

c - 为什么我不能写超过 2GB?

WebRTC 带宽要求