作为对那些从事程序优化和性能调整工作的人的一个普遍问题,您如何确定您的代码是受 CPU 限制还是内存限制?我大体上理解这些概念,但如果我说“y”个加载和存储量以及“2y”个计算,那么如何找到瓶颈?
您还可以弄清楚您究竟将大部分时间花在哪里,并且说,如果您在每次循环迭代中将“x”量的数据加载到缓存中(如果它的内存受限),那么您的代码会运行得更快吗?除了反复试验之外,是否有任何精确的方法来确定这个“x”?
在 IA-32 或 IA-64 架构上,您是否会使用任何工具? VTune 有帮助吗?
例如,我目前正在执行以下操作:
我有 26 个 8*8 的复数 double 矩阵,我必须对这 26 个矩阵中的每一个矩阵执行一个 MVM(矩阵 vector 乘法),其中包含 (~4000) 个长度为 8 的 vector 。我使用 SSE 执行复数乘法。
/*Copy 26 matrices to temporary storage*/
for(int i=0;i<4000;i+=2){//Loop over the 4000 vectors
for(int k=0;k<26;k++){//Loop over the 26 matrices
/*
Perform MVM in blocks of '2' between kth matrix and
'i' and 'i+1' vector
*/
}
}
这 26 个矩阵占用 26kb(L1 缓存为 32KB),我将 vector 放在内存中,这样我就有了 stride'1' 访问。一旦我对包含 27 个矩阵的 vector 执行 MVM,我就不会再访问它们,所以我认为缓存阻塞不会有帮助。我已经使用了矢量化,但我仍然停留在 60% 的峰值性能上。
我尝试将 64 个 vector 复制到临时存储中,对于外循环的每次迭代都认为它们将在缓存中并提供帮助,但它只会降低性能。我尝试按以下方式使用 _mm_prefetch():当我处理完大约一半的矩阵时,我将下一个“i”和“i+1” vector 加载到内存中,但这也没有帮助。
我已经完成了所有这些假设它的内存限制,但我想确定。有办法吗?
最佳答案
据我了解,最好的方法是分析您的应用程序/工作负载。根据输入数据,应用程序/工作负载的特性可能会有很大差异。然而,这些行为可以用极少数来量化 phases引用 [2 , 3 ] 和直方图可以大致说明要优化的工作负载的最频繁路径。您提出的问题还需要架构的基准程序 [如 SPEC2006、PARSEC、Media bench 等],并且很难笼统地回答(并且是计算机架构研究的一个活跃部分)。但是,对于特定情况,可以针对不同的内存层次结构说明定量结果。您可以使用以下工具:
- 表现
- 个人资料
- VTune
- 利维德
- LLTng
和其他监控和模拟工具来获取应用程序的分析痕迹。您可以查看性能计数器,如 IPC、CPI(用于 CPU 绑定(bind))和内存访问、缓存未命中、缓存访问和其他内存计数器以确定内存边界。如 IPC、每周期内存访问 (MPC),通常用于确定应用程序/工作负载的内存边界。 为了专门改进矩阵乘法,我建议使用优化算法,如 LAPACK .
关于c - 了解代码示例是受 CPU 限制还是受内存限制,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14988481/