linux - 从大型 malloced 数组读取而不是仅存储时,页面错误的数量是原来的两倍?

标签 linux perf page-fault

我正在用下面的代码做一个简单的监控页面错误的测试,我不知道下面一行简单的代码是如何使我的页面错误计数加倍的。 如果我使用

 ptr[i+4096] = 'A'

我使用 perf 工具得到了 25,722 页面错误,这是我所期望的, 但是如果我使用

tmp = ptr[i+4096]

相反,页面错误翻了一番,达到 51,322 我不知道如何解释它。下面是完整的代码。谢谢!

void do_something() {
    int i;
    char* ptr;
    char tmp;
    ptr = malloc(100*1024*1024);
    int j = 0;
    int k = 0;

    for (i = 0; i < 100*1024*1024; i+=4096) {

       //ptr[i+4096] = 'A' ;
       tmp = ptr[i+4096];

       for (j = 0 ; j < 4096; j++)
           ptr[i+j] = (char) (i & 0xff); // pagefault
    }
    free(ptr);
}

int main(int argc, char* argv[]) {
    do_something();
    return 0;
}

机器信息: 架构:x86_64 CPU 操作模式:32 位、64 位 字节顺序:小字节序 中央处理器:40 联机 CPU 列表:0-39 每核心线程数:2 每个插槽的核心数:10 socket :2 NUMA 节点:2 供应商 ID:GenuineIntel CPU 系列:6 型号:63 型号名称:Intel(R) Xeon(R) CPU E5-2687W v3 @ 3.10GHz 步进:2 中央处理器频率:3096.188 BogoMIPS:6197.81 虚拟化:VT-x 一级缓存:32K 一级缓存:32K 二级缓存:256K 三级缓存:25600K NUMA node0 CPU:0-9,20-29 NUMA node1 CPU(s): 10-19,30-39

3.10.0-514.32.3.el7.x86_64#1

最佳答案

malloc() 通常会通过向操作系统请求新页面来满足内存请求,例如通过 mmap。 .此类页面通常是延迟分配的:在第一次访问之前不会分配实际页面。

接下来会发生什么取决于第一次访问的类型:当您首先进行读取时,Linux 将映射到共享只读 COW零页面来满足它,然后如果你以后写它需要第二次错误来分配私有(private)可写页面。

当你先写的时候,第一步会被跳过。这是常见的情况,因为代码通常不会从具有未定义内容的新分配内存中读取(至少当您从 malloc 获取它时)。

请注意,上面是对新分配的页面在 Linux 中如何工作的描述 - 当您使用 malloc 时,还有另一层:malloc 通常会尝试满足请求阻塞较早释放的进程,而不是不断地请求新的内存。在内存被重新使用的情况下,它通常已经被分页并且上面的内容不适用。当然,对于 1024 MiB 的初始大分配,没有内存可供重复使用,因此您可以确定分配器是从操作系统获取它的。

关于linux - 从大型 malloced 数组读取而不是仅存储时,页面错误的数量是原来的两倍?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52189267/

相关文章:

javascript - 尝试镜像使用stradown.js 的站点

linker - Perf中用于确定库加载地址的机制

linux - perf stat 中针对上下文切换显示的单位的含义是什么?

python - 是什么导致此 python 代码中的 135k/sec 页面错误? (试分初筛)

linux - 如何强制页面在下次访问时生成页面错误?

linux - Mac OSX 中的 "aptitude"相当于什么?

python - 如何将二维码分割成单独的图像?

linux - 如果 `pwd -P` 包含包含空格的文件夹名称,bash 脚本将失败

c - 使用 PAPI 从 perf_event_uncore 列表读取硬件计数器

performance - Meltdown 缓解与 `calloc()` s CoW "lazy allocation"相结合,是否意味着 calloc() 分配的内存会受到性能影响?