c++ - 生成 AES (AES-256) 查找表

标签 c++ matrix cuda aes lookup

我正在尝试使用 nVidia CUDA 在 CTR 模式下实现 AES-256。我已经成功地为 key 扩展编写了 CPU 代码,现在我需要实现实际的 AES-256 算法。根据维基百科,我见过一些代码,特别是 this PDF (第 9 页),AES 循环可以实现为一系列表查找。我的问题是如何生成这些表?我知道我需要 4 KB 来存储这些表,这不是问题。我花了一整天的时间试图找到这些表,但没有成功。我发布的 PDF 链接提到了查找表 T0、T1、T2 和 T3,但我不知道这些是什么。它还提到了轮 key 4、5、6 和 7,但我也不明白这些索引指的是什么。

我最接近弄清楚如何生成这些查找表的是 this project .在代码中,有一条评论说:

Te0[x] = S [x].[02, 01, 01, 03];
Te1[x] = S [x].[03, 02, 01, 01];
Te2[x] = S [x].[01, 03, 02, 01];
Te3[x] = S [x].[01, 01, 03, 02];

但是,我不确定我是否知道该表示法的含义(它是矩阵乘法还是其他?)。我唯一认识的是混合列部分常数矩阵,以及S盒矩阵。

[编辑] 既然有人指出了这一点 - 查找实现实际上如何变慢?在此处不使用查找表来实现 AES 是否明智?

最佳答案

T 表是矩阵形式的 AES 轮变换的直接描述。要构建它们,请参阅原始 Rijndael NIST proposal , 第 5.2.1 节。

关于c++ - 生成 AES (AES-256) 查找表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15094722/

相关文章:

memory-management - cuda中的内存碎片

c++ - 包装一个类型,但保留其关于函数重载的行为?

c++ - 返回一个本地对象会导致垃圾,而返回同一个对象临时工作正常

c++ - 性能问题 : Inverting an array of pointers in-place vs array of values

python - 如何对矩阵进行分箱

Python 矩阵乘法变体

memory-management - CUDA 在 __device__ 函数中分配内存

c++ - 使用 boost::thread 的并行任务比使用 ppl 或 OpenMP 获得更好的性能

c# - 阻止 WM_QUIT

c++ - 将 RGB 图像转换为灰度时,我的输出是黑色图像