c++ - 关于 linux 中的动态缩放,程序在时钟周期中的意外执行时间

标签 c++ c linux gcc

我正在用 c 语言编写一个程序,以根据 CPU 周期计算执行一项任务所需的时间。我正在避免时间转换,以秒为单位的时间 = 1/时钟周期,因为 CPU 频率在服务器低负载时发生变化,以节省功耗。

程序 1:

  ///////////////////////// RDTSC Functions /////////////////////////

inline void start_rdtsc_rdtscp_ia64() {
    asm volatile ("CPUID\n\t"
            "RDTSC\n\t"
            "mov %%edx, %0\n\t"
            "mov %%eax, %1\n\t": "=r" (cycles_high), "=r" (cycles_low):: "%rax", "%rbx", "%rcx", "%rdx");

}

inline void end_rdtsc_rdtscp_ia64() {
    asm volatile("RDTSCP\n\t"
            "mov %%edx, %0\n\t"
            "mov %%eax, %1\n\t"
            "CPUID\n\t": "=r" (cycles_high1), "=r" (cycles_low1):: "%rax", "%rbx", "%rcx", "%rdx");
}

inline void warmup_rdtsc_rdtscp_ia64() {
    start_rdtsc_rdtscp_ia64();
    end_rdtsc_rdtscp_ia64();

    start_rdtsc_rdtscp_ia64();
    end_rdtsc_rdtscp_ia64();

    start_rdtsc_rdtscp_ia64();
    end_rdtsc_rdtscp_ia64();
}

inline uint64_t get_start_ia64() {
    return (((uint64_t) cycles_high << 32) | cycles_low);
}

inline uint64_t get_end_ia64() {
    return (((uint64_t) cycles_high1 << 32) | cycles_low1);
}

///////////////////////// RDTSC Timer Functions /////////////////////////

inline void start_timer() {
    warmup_rdtsc_rdtscp_ia64();
    start_rdtsc_rdtscp_ia64();
}

inline void end_timer() {
    end_rdtsc_rdtscp_ia64();
    start = get_start_ia64();
    end = get_end_ia64();
}

inline uint64_t get_cycles_count() {
    return end - start;
}

// measuring time here 
start_timer();

perform a task for length K //Let large K means more computation

end_timer();


time in ticks= get_cycles_count()

方案二

int main()
{

while(1);
}

我使用了 warmup_rdtsc_rdtscp_ia64() 函数,以便我的 rdtsc 和 cpuid 按照英特尔文档准备就绪,这是获得正确读数所必需的。

没有 Program2 的存在,我的循环读数越来越高,我无法找到执行时间和长度 K 之间的原因和关系。

有了 Program2,我得到了预期的结果——这意味着我可以关联执行时间和 K 的长度。获得更高的时钟周期执行时间和更高的 K 长度。

我只明白,Program2 阻止 CPU 进入省电模式,所以我的 CPU 总是运行到最高 CPU 频率,而没有 program2 我的 CPU 进入省电模式以节省电力并运行到可能的最低频率。

所以,我的疑惑如下

  1. 如果没有 Progra2,CPU 会进入省电模式(降低 CPU 频率)以节省电量。虽然 CPU 以较低的频率运行,但我仍然期待几乎相似的时钟周期范围。出于同样的原因,我没有使用转换 Time_in_sec= 1/Frequency 。我获得更高时钟周期的原因是什么????

  2. 谁能解释一下 - 在时钟周期内完成任务所需的时序与不同频率级别(省电模式、按需模式、性能模式)之间的关系是什么

我正在使用 Linux 以及 gcc 和 g++。

我需要你的帮助来了解在不同功耗模式(省电模式、按需模式、性能模式)下完成任务所需的时钟周期之间的关系

提前致谢。

最佳答案

您可以使用许多工具来实现您的目标,您应该尝试利用这些工具,而不一定要自己动手。这是我最喜欢的两个:

https://perf.wiki.kernel.org/index.php/Main_Page

https://code.google.com/p/likwid/

关于您的两个问题,我提出以下建议:完成一个程序所需的时间与 CPU 频率没有直接关系。许多人使用称为每周期指令数或 IPC 的指标。 IPC 指标可能会有很大差异。在当前的机器上,at 可能高达 2 到 4,即 CPU 每个 CPU 周期退出一条以上的指令,因为它可以在每个周期发出多条指令。您为您的程序看到的 IPC 至少取决于以下因素:CPU 可以利用的指令级并行度的数量(即因为您可能有乱序处理器)和数据中的局部性数量(即因为更多的局部性意味着更多的缓存命中,因此更少的内存等待。

现代系统的 CPU 时钟频率也各不相同。它可以更高或更低,具体取决于 1) 省电模式(即,如果它是一台未插入电源线的笔记本电脑)和 2) 当前系统负载(即,您有多个 CPU,但如果大多数 CPU 处于空闲状态,一个 CPU可以比所有四个同时运行的速度更快)。

因此,您需要的是以下三样东西: 1. 程序的平均 IPC 2. 运行程序时的平均 CPU 频率 3. 程序中的指令数

然后您可以使用上面的方法计算您的执行时间。然后您可以使用 likwid 或 perf 在这个低级别上调整您的性能。您可以看到省电模式对 CPU 频率有何影响。

祝你好运。

关于c++ - 关于 linux 中的动态缩放,程序在时钟周期中的意外执行时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25252219/

相关文章:

c++ - 转换可变参数函数的参数

c++ - 如何删除格式化 ofstream 中的冗余

c++ - 使用 CMake 创建库、安装它并链接到另一个项目的正确方法

C - 静态分配的字符数组的 memset 段错误

c++ - QDomDocument 不会插入 QDomElement

c# - 在 Mono .Net Threads 中,线程是粘在周围,还是?

c - 在C中从http接收XML文件

linux - 帮助 CentOS 中损坏的文件(二进制)

linux - 如何仅grep包含x和y的内容?

linux - BASH Shell 交互式 session - 如何修复 ASCII 艺术动画输出?