让我们讨论一下我有一个巨大的 std::vector 的情况。我需要迭代所有元素并调用 print
功能。有两种情况。如果我将我的对象存储在vector中,并且对象在内存中将彼此相邻,或者我分配我的对象是堆,并将对象的指针存储在vector中。在这种情况下,对象将分布在整个 RAM 中。
如果对象的拷贝存储在 std::vector<A>
中,当 CPU 将数据从 RAM 带到 CPU 缓存时,它会带来一 block 内存,其中包含 vector 的多个元素。在这种情况下,当你迭代每个元素并调用一个函数时,你就会知道将处理多个元素,然后 CPU 才会去 RAM 请求剩余的数据部分进行处理。这很好,因为 CPU 没有很多空闲周期。
关于 std::vector<A*>
的情况呢? ?当它带上一大块指针的时候CPU是不是很容易通过指针获取对象呢?或者它应该从 RAM 请求您调用某些函数的对象,并且会有缓存未命中和空闲 CPU 周期?性能方面比上面的案例差吗?
最佳答案
至少在典型情况下,当 CPU 从内存中获取一个(或多个)指针时,它不会自动获取这些指针所指向的数据。
因此,在指针 vector 的情况下,当您加载每个指针所指的项目时,通常会出现缓存未命中,并且访问速度会比连续存储时慢得多。当/如果每个项目都相对较小时尤其如此,因此它们中的一些可以放在一个缓存行中(对于某种级别的缓存——请记住,当前的处理器通常有两级或三级缓存,每一个都可能有不同的行大小)。
但是,有可能在某种程度上减轻这种情况。你可以重载 operator new
对于一个类来控制该类对象的分配。使用它,您至少可以将该类的对象一起保存在内存中。这并不能保证特定 vector 中的项目是连续的,但可以改善局部性以显着提高速度。
另请注意, vector 通过 Allocator 对象分配其数据(默认为 std::allocator<T>
,而后者又使用 new
)。尽管界面有点乱,所以它比您通常想要的要难,但您可以根据需要定义一个分配器来执行不同的操作。这通常不会对单个 vector 产生太大影响,但如果(例如)您有多个 vector (每个 vector 大小固定)并希望它们彼此相邻使用内存,则可以通过分配器对象来实现.
关于c++ - std::vector<A> 与 std::vector<A*> CPU 的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23459004/