memory - 内存对齐的目的

标签 memory alignment memory-alignment

诚然,我不明白。假设您有一个内存,其内存字长度为 1 字节。为什么不能在未对齐地址(即不能被 4 整除)上的单次内存访问中访问 4 字节长的变量,就像对齐地址的情况一样?

最佳答案

现代处理器上的内存子系统仅限于以其字大小的粒度和对齐方式访问内存;造成这种情况的原因有很多。

速度

现代处理器具有多层高速缓存,数据必须通过这些高速缓存进行提取;支持单字节读取将使内存子系统吞吐量与执行单元吞吐量紧密绑定(bind)(也称为 CPU 绑定(bind));这一切都让人想起PIO mode was surpassed by DMA出于许多与硬盘驱动器相同的原因。

CPU总是以其字大小读取(32位处理器上为4字节),因此当您在支持它的处理器上进行未对齐的地址访问时,处理器将读多个单词。 CPU 将读取您请求的地址跨越的每个内存字。这会导致访问请求数据所需的内存事务数量放大多达 2 倍。

因此,读取两个字节很容易比读取四个字节慢。例如,假设内存中有一个如下所示的结构:

struct mystruct {
    char c;  // one byte
    int i;   // four bytes
    short s; // two bytes
}

在 32 位处理器上,它很可能会如下所示进行对齐:

Struct Layout

处理器可以在一个事务中读取这些成员中的每一个。

假设您有该结构的打包版本,可能来自为了传输效率而打包的网络;它可能看起来像这样:

Packed Struct

读取第一个字节将是相同的。

当您要求处理器为您提供 0x0005 中的 16 位时,它将必须从 0x0004 中读取一个字并左移 1 个字节以将其放入 16 位寄存器中;一些额外的工作,但大多数都可以在一个周期内完成。

当您从 0x0001 请求 32 位时,您将获得 2 倍的放大。处理器将从 0x0000 读入结果寄存器并左移 1 个字节,然后再次从 0x0004 读入临时寄存器,右移 3 个字节,然后与结果寄存器进行“或”操作。

范围

对于任何给定的地址空间,如果架构可以假设 2 个 LSB 始终为 0(例如,32 位机器),那么它可以访问 4 倍以上的内存(2 个保存的位可以代表 4 个不同的状态),或者相同数量的内存,具有 2 位,用于标记等内容。从地址中去掉 2 个 LSB 将得到 4 字节对齐;也称为stride 4 字节。每次地址递增时,实际上是递增位 2,而不是位 0,即最后 2 位将始终为 00

这甚至会影响系统的物理设计。如果地址总线需要减少 2 个位,则 CPU 上的引脚可以减少 2 个,电路板上的走线也可以减少 2 个。

原子性

CPU 可以原子地对内存的对齐字进行操作,这意味着没有其他指令可以中断该操作。这对于许多人的正确操作至关重要lock-free data structures及其他concurrency范式。

结论

处理器的内存系统比此处描述的要复杂得多,也更复杂;关于how an x86 processor actually addresses memory的讨论可以提供帮助(许多处理器的工作原理类似)。

遵守内存对齐还有更多好处,您可以在 this IBM article 中阅读。 .

计算机的主要用途是转换数据。现代内存架构和技术经过数十年的优化,有助于以高度可靠的方式在更多、更快的执行单元之间输入、输出更多数据。

奖励:缓存

我之前提到的另一个性能对齐是缓存行的对齐(例如,在某些 CPU 上)64B。

有关利用缓存可以获得多少性能的详细信息,请查看 Gallery of Processor Cache Effects ;从这里question on cache-line sizes

Understanding of cache lines can be important for certain types of program optimizations. For example, the alignment of data may determine whether an operation touches one or two cache lines. As we saw in the example above, this can easily mean that in the misaligned case, the operation will be twice slower.

关于memory - 内存对齐的目的,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59372376/

相关文章:

arrays - 来自调试器的消息 : Terminated due to memory issue in Xcode 10. 1...图像数组?

c++ - 分配派生类时使用现有的基类对象

c - 在另一个函数中分配内存的变量

html - 如何使用 css 从中心而不是顶部/底部/侧面对齐任意大小的图像

c++ - _mm_load_ps 导致段错误

c++ - 对内存中同一地址的写入之间可能存在数据竞争

css - 导航菜单与 css 对齐

c++ - 如何从二进制文件填充结构,同时避免内存对齐填充引起的问题?

c++ - 原子值的部分比较和完全交换

html - 将 div 在其他 div 中居中对齐,并在垂直和水平方向居中对齐图像