在像 C 这样的语言中,不同线程对同一内存位置的非同步读写是未定义的行为。但是在 CPU 中,cache coherence says如果一个核心写入内存位置,然后另一个核心读取它,则另一个核心必须读取写入的值。
如果下一层只是将其丢弃,为什么处理器需要费心公开内存层次结构的连贯抽象?为什么不让缓存变得不连贯,并要求软件在想要共享某些内容时发出特殊指令?
最佳答案
C++11 std::mutex
所需的 acquire
和 release
语义(以及其他语言中的等价物,以及更早的东西,如pthread_mutex
) 如果您没有连贯的缓存,实现起来将非常昂贵。每次释放锁时,您都必须写回每条脏行,并且每次获取锁时逐出每条干净的行,如果不能指望硬件使您的存储可见,并使您的负载不可见的话从私有(private)缓存中获取陈旧数据。
但是有了缓存一致性,acquire and release只是命令该核心访问其自己的私有(private)缓存的问题,该缓存与其他核心的 L1d 缓存属于同一一致性域。所以它们是本地操作并且非常便宜,甚至不需要耗尽存储缓冲区。互斥锁的成本仅在于它需要执行的原子 RMW 操作,当然,如果拥有互斥锁的最后一个内核不是这个内核,则还在于缓存未命中。
C11 和 C++11 分别添加了 stdatomic 和 std::atomic,这使得访问共享的 _Atomic int
变量变得明确,所以高级语言不公开是不正确的这个。假设可以在需要显式刷新/无效以使存储对其他内核可见的机器上实现,但这将非常慢。语言模型假定一致的缓存,不提供显式的范围刷新,而是具有释放操作,使 每个 旧存储对其他线程可见,这些线程执行与该线程中的释放存储同步的获取负载。 (有关一些讨论,请参阅 When to use volatile with multi threading?,尽管该答案主要是为了揭穿缓存可能有陈旧数据的误解,人们对编译器可以“缓存”非原子非-寄存器中的易失值。)
事实上,C++ atomic 上的一些保证实际上被标准描述为将硬件一致性保证暴露给软件,如“写-读一致性”等,以注释结尾:
http://eel.is/c++draft/intro.races#19
[ Note: The four preceding coherence requirements effectively disallow compiler reordering of atomic operations to a single object, even if both operations are relaxed loads. This effectively makes the cache coherence guarantee provided by most hardware available to C++ atomic operations. — end note
(早在 C11 和 C++11 之前,SMP 内核和一些用户空间多线程程序就是手动滚动原子操作,使用 C11 和 C++11 最终以可移植方式公开的相同硬件支持。)
此外,正如评论中所指出的,一致的缓存对于其他内核写入同一行的不同部分以避免相互干扰至关重要。
ISO C11 保证 char arr[16]
可以让一个线程写入 arr[0]
而另一个线程写入 arr[1]
。如果它们都在同一个缓存行中,并且存在该行的两个冲突的脏副本,则只有一个可以“获胜”并被写回。 C++ memory model and race conditions on char arrays
ISO C 实际上要求 char
与您可以编写的最小单元一样大,而不会干扰周围的字节。在几乎所有机器上(不是早期的 Alpha 和一些 DSP),that's a single byte ,即使与某些非 x86 ISA 上的对齐字相比,字节存储可能需要额外的周期来提交到 L1d 缓存。
该语言直到 C11 才正式要求这样做,但这只是标准化了“每个人都知道”的唯一明智的选择,即编译器和硬件已经如何工作。
关于c - 为什么我们甚至需要缓存一致性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69525927/