multithreading - 当不同的CPU内核在不同步的情况下写入同一RAM地址时会发生什么情况?

标签 multithreading x86 cpu-architecture low-level lock-free

假设2个内核试图在同一时间(正负eta)将不同的值写入相同的RAM地址(1个字节),并且不使用任何互锁的指令或内存屏障。在这种情况下会发生什么,什么值将被写入主RAM?第一个获胜?最后一个赢了?不确定的行为?

最佳答案

x86(与其他主流SMP CPU架构一样)具有coherent data caches。两个不同的缓存(例如2个不同内核的L1D)不可能为同一缓存行保存冲突的数据。

硬件强加了一个命令(通过某种特定于实现的机制来打破联系,以防两个所有权请求在同一时钟周期内从不同的内核到达)。在大多数现代x86 CPU中,第一个存储区不会写到RAM,因为有一个共享的回写L3缓存来吸收一致性流量,而无需往返存储器。

以全局顺序在两个存储之后出现的负载将看到第二个存储所存储的值。

(我假设我们正在谈论将普通(非NT)存储存储到可缓存的内存区域(WB,而不是USWC,UC甚至是WT)。但是,在两种情况下,基本思想都是相同的; 一个存储将首先,下一步将踩到它。如果在全局顺序中碰巧在它们之间发生负载,则可以临时观察来自第一个存储的数据,否则,硬件将选择执行第2个存储的数据长期的影响。

我们正在谈论的是一个字节,因此不能将存储区拆分为两条高速缓存行,因此每个地址都自然对齐,因此Why is integer assignment on a naturally aligned variable atomic on x86?中的所有内容都适用。

一致性是通过要求核心在对其进行修改之前先获得对该缓存行的独占访问权来维护的,即(即,通过将其从商店队列提交到L1D缓存来使商店在全局范围内可见)。

使用the MESI protocol(的一种变体)可以完成这种“获取独占访问”的工作。高速缓存中的任何给定行都可以被修改(脏),排他(尚未写入),共享(干净副本;其他高速缓存也可能具有副本,因此在写入之前需要RFO(读取/请求所有权)),或无效的。 MESIF(Intel)/MOESI(AMD)添加了额外的状态来优化协议(protocol),但不要更改基本逻辑,即只有一个内核可以随时更改一条线路。

如果我们关心对两个不同行的多个更改的排序,则内存排序的内存障碍将发挥作用。但是,对于在同一时钟周期内执行或退出存储的“哪个存储赢”这个问题,这都不重要。

存储执行时,它将进入存储队列。它可以提交给L1D,并且在退休后的任何时候(但不是在此之前)都可以全局可见。未弃用的指令被视为推测性的,因此它们的体系结构效果必须在CPU内核之外不可见。投机负荷没有建筑影响,只有微建筑1。

因此,如果两个存储都准备好在“同一时间”提交(时钟不必在内核之间同步),那么另一个或另一个将使其RFO首先成功并获得独占访问权,并使其存储数据在全局可见。然后,不久之后,另一个核心的RFO将成功执行并使用其数据更新缓存行,因此其存储在所有其他核心观察到的全局存储顺序中排名第二。

x86具有总存储顺序的内存模型,其中,即使对于不同高速缓存行的存储,所有内核都遵循相同的顺序(除非始终按程序顺序查看其自己的存储)。诸如PowerPC之类的一些弱排序的体系结构将允许某些内核看到与其他内核不同的总顺序,但是这种重新排序只能在商店到不同生产线之间发生。单个高速缓存行始终只有一个修改顺序。 (关于彼此和其他存储的负载重新排序意味着您必须小心如何在弱排序的ISA上进行观察,但是MESI会对缓存行进行单一修改)。

哪一个获胜可能取决于环形总线上内核的布局(相对于该线映射到哪一部分共享L3缓存)的平庸性。 (请注意,使用“种族”一词:这是“种族条件”错误所描述的一种种族。编写代码时,两个不同步的商店更新同一位置并且您不在乎哪个会获胜,这并不总是错误的,但很少见。)

顺便说一句,当多个内核争用原子对同一高速缓存行进行原子读-修改-写操作(因此是holding onto it for multiple clock cycles to make lock add byte [rdi], 1 atomic)时,现代的x86 CPU具有硬件仲裁,但是常规加载/存储只需要在一个周期内拥有一条高速缓存行执行加载或提交存储。我认为lock ed指令的仲裁与当多个内核试图将存储提交到同一高速缓存行时内核胜出是另一回事。除非您使用pause指令,否则内核会假定其他内核未在修改相同的缓存行,并且以推测方式加载得较早,因此,如果确实发生了内存排序错误推测,则将遭受痛苦。 (What are the latency and throughput costs of producer-consumer sharing of a memory location between hyper-siblings versus non-hyper siblings?)

如果两个线程都只是在不加载的情况下进行存储,则可能发生IDK,这可能是因为没有对存储进行非推测性的重新排序,并且由于存储队列将它们与乱序执行分离开来,所以发生了IDK。一旦存储指令退出,存储肯定会发生,因此OoO执行人员不必等待其实际提交。 (实际上,它必须先从OoO内核中退出,然后才能提交,因为这是CPU知道它是非推测性的;即,没有更早的指令出错或分支预测错误)

脚注:

  • Spectre通过使用高速缓存定时攻击将微体系结构状态读入架构状态来模糊该行。
  • 关于multithreading - 当不同的CPU内核在不同步的情况下写入同一RAM地址时会发生什么情况?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48817022/

    相关文章:

    ios - 了解并发 GCD

    c - 如果计数值大于它可以容纳的值,CPU 计时器如何工作?

    assembly - 分支预测会导致非法指令吗?

    multithreading - 如何告诉 Rust 让我修改隐藏在 RwLock 后面的共享变量?

    Python - PyQt 信号 - 发出参数并将其发送到不同的类

    python - 我怎样才能杀死所有线程?

    x86 - 装配中出现奇怪的段错误

    assembly - x86 架构是否支持将 bool 打包为位以并行化逻辑操作?

    gcc - 声明“extern struct cpu *cpu asm ("%gs:0");”是什么意思?意思是?

    performance - 在 Ivy Bridge 上存储 32 字节对象?