multithreading - 我们可以使用 x86_64 CPU 原子在 PCI Express 上生成复合原子操作吗?

标签 multithreading driver linux-device-driver x86-64 pci-e

  1. 如您所知,从 2.0 版本开始,PCI Express 支持复合原子操作:FetchAddSwapCAS:https://pcisig.com/sites/default/files/specification_documents/ECN_Atomic_Ops_080417.pdf

  2. 众所周知,x86_64 CPU 具有汇编复合原子操作:lock add[lock] xchglock cmpxchg: https://godbolt.org/g/MmqMRw

这可以由 C 编译器使用 volatile atomic_int 操作生成:

int expceted_cas = 0;
volatile atomic_int a;

atomic_fetch_add( &a, 1 );
atomic_exchange( &a, 1 );
atomic_compare_exchange_weak( &a, &expceted_cas, 1 );

我想通过使用复合原子操作访问通过 PCI Express 连接到 PC-x86_64 的设备上的缓冲内存(以太网、GPU 等) >。 IE。我们已经知道硬件总线的工作原理(PCIe 支持原子 FetchAdd/Swap/CAS),但我们想知道需要哪些汇编程序源代码才能使用此 PCIe 功能。

我们可以使用 x86_64 CPU 复合原子操作:lock add[lock] xchglock cmpxchg 在 PCI Express 上生成复合原子操作:FetchAddSwapCAS?

或者我们应该在 x86_64 CPU 上使用什么 asm 代码来执行原子操作 FetchAdd, Swap, CAS on PCI Express 2.0/3.0 ?

最佳答案

对于我从互联网上收集到的信息,撰写本文时最新一代的 Intel CPU [ 1 ] [ 2 ] [ 3 ] 仅支持 PCIe AtomicOps 作为完成者

集成到 uncore 中的 PCIe 设备可以完成一个 AtomicOp 但不能请求一个,PCIe 端口可以请求一个 AtomicOp 但那可能只是为了转发设备发起的请求。

看来PCI根联合体无法请求AtomicOps。
启用 AtomicOps 需要处理器和根联合体之间的紧密耦合:不仅处理器必须传输它正在执行的操作类型 - 从而实现 x86 指令和 PCIe AtomicOps 之间的映射 - 而且它的操作数。
此外,根复合体必须能够在所有可能的目的地中识别写入目标何时是启用 AtomicOps 的设备——因此需要一组软件可配置的地址范围。
最后,AtomicOps 需要由 QPI Quiesce Master 专门处理 - 因为目标设备已经处理原子性,所以可以避免全局 QPI 锁。
当然,所有这一切都假设目标内存不可缓存(或者取而代之的是缓存锁)。

我不认为这些是无法克服的障碍,而是我相信 AtomicOps 的发明主要是为了缩短 IO->HostMem 原子写入或 IO->IO 写入的延迟。
Looking at what Intel wrote :

Today, message-based transactions are used for PCIe devices, and these use interrupts that can experience long latency, unlike CPU updates to main memory that use atomic transactions.

似乎主要关注的是使用中断来通知设备驱动程序必须代表其托管设备执行原子写入。

Host->IO AtomicOps 是允许的,但似乎不能像今天那样生成, 肯定不能单独使用 lock 前缀。
我还认为,从处理器向设备发出 AtomicOps 只会对执行相对于其他 PCIe 设备 的原子写入有用,因为处理器通常会使用锁同步自身。

关于multithreading - 我们可以使用 x86_64 CPU 原子在 PCI Express 上生成复合原子操作吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44249444/

相关文章:

c# - 双核性能不如单核?

C++ 多线程、简单的消费者/生产者线程、后进先出、通知、计数器

windows-7 - Wiimote 的 Windows HID 设备驱动程序安装。我们可以改进它吗?

c - Linux的disable_irq()和local_irq_save()

android - 如何在JNI项目中实现精细的功能

ios - 如何检查dispatch_async是否被提前调用以进行相同的操作

java - 如何使用Java获取PC的音频声卡和驱动程序列表

android - 为什么我们应该实现/使用我们的看门狗而不是 Linux 默认看门狗?

Linux cdev 与 register_chrdev

java - 固定 ImageButton 在 GestureImageView 上的位置