assembly - call *(%rax, %rcx,8) 在循环中是什么意思?为什么RAX和RCX之后要变?

标签 assembly x86-64 reverse-engineering disassembly att

我有这个函数指针和这段代码:

0x0000555555556e80 <+0>:     push   %rbp
0x0000555555556e81 <+1>:     mov    %rsp,%rbp
0x0000555555556e84 <+4>:     sub    $0x10,%rsp
0x0000555555556e88 <+8>:     movl   $0x0,-0x4(%rbp)
0x0000555555556e8f <+15>:    movslq -0x4(%rbp),%rcx
0x0000555555556e93 <+19>:    lea    0x7406(%rip),%rax        # 0x55555555e2a0 <init_functions>
0x0000555555556e9a <+26>:    cmpq   $0x0,(%rax,%rcx,8)
0x0000555555556e9f <+31>:    je     0x555555556ec1 <initialize_bomb+65>
0x0000555555556ea5 <+37>:    movslq -0x4(%rbp),%rcx
0x0000555555556ea9 <+41>:    lea    0x73f0(%rip),%rax        # 0x55555555e2a0 <init_functions>
0x0000555555556eb0 <+48>:    call   *(%rax,%rcx,8)
0x0000555555556eb3 <+51>:    mov    -0x4(%rbp),%eax
0x0000555555556eb6 <+54>:    add    $0x1,%eax
0x0000555555556eb9 <+57>:    mov    %eax,-0x4(%rbp)
0x0000555555556ebc <+60>:    jmp    0x555555556e8f <initialize_bomb+15>
0x0000555555556ec1 <+65>:    add    $0x10,%rsp
0x0000555555556ec5 <+69>:    pop    %rbp
0x0000555555556ec6 <+70>:    ret    

就是一个迭代11次的循环,真不知道怎么处理函数指针。当有 call *(%rax,%rcx,8) 时,涉及的两个寄存器(RAX 和 RCX)发生变化,但我不明白如何或为什么,因为我不知道会发生什么在那个电话中...

我不能设置断点。我不知道该怎么办。

最佳答案

call *address 使用标准 AT&T 语法将函数指针从内存加载到 RIP 中,用于在 * 之后的寻址模式(或寄存器名称)。参见 What does an asterisk * before an address mean in x86-64 AT&T assembly? 所以这会推送一个返回地址,然后从地址 [rax + rcx*8] 加载一个新的 RIP。

call *foo 语法(EIP/RIP = dword/qword loaded from memory at foo, memory-indirect)有一个星号来消除与call的歧义foo(RIP = foo 的地址,直接调用 rel32),以防您仅使用裸符号名称作为寻址模式。

在 64 位模式下,您通常会对不在数组中的静态函数指针使用 call *foo(%rip),但 AT&T 语法的设计早在 x86-64 之前存在,并且 64 位模式仍然存在这种歧义。 (在所有其他情况下,如果您遗漏 *,GAS 会发出警告,并且如果您编写类似 call (%rax) 的内容,则推断您的意思是间接跳转/调用或 调用 %rax。)


RAX 和 RCX 被调用破坏,因此它们不保持其值是正常的;请注意它们在 call 之前的值如何来自 LEA 和来自堆栈上本地的加载。 ( What registers are preserved through a linux x86-64 function call )

如果您想查看调用了哪些函数,请使用 GDB stepi(又名 si)单步执行调用。 (在此函数的某处放置一个断点,以便您可以从那里单步执行。)


如果您想了解循环,请查看围绕调用 的代码。

相对于 RIP 的 LEA 将一个常量地址放入 RAX;正如 fjs 指出的那样,有一个符号名称 init_functions

RCX 从堆栈上的局部变量加载,符号扩展从 32 位到 64 位。看看周围的代码,这显然是一个循环计数器,在函数的前面初始化为零。大概是一个 int

在调用之前,进行相同的数组索引以检查它是否为 NULL 指针。这显然是debug-mode compiler output ,其中每个 C 语句都被编译为一个单独的 asm block 。这意味着您只需要在本地查看一个 block 在孤立地做什么,但它会导致比必要的代码多得多,例如两次访问数组,每次都重做循环计数器的符号扩展。

像这样的事情很简单,整个循环很容易在优化的构建中遵循。嗯,很简单; GCC 确实旋转循环,因此条件可以在底部,部分剥离它。并在保存 RBX(收缩包装优化)之前检查第一个条件,它用于将指针保存到数组中。 (而不是使用指针和单独的整数索引)。

extern void (*init_functions[])();

void init(){
    for(int i=0 ; init_functions[i]  ; i++) 
        init_functions[i]();
}

Godbolt

init():
        movq    init_functions(%rip), %rax   # partially peeled first iteration
        testq   %rax, %rax
        je      .L9
        pushq   %rbx
        leaq    8+init_functions(%rip), %rbx      # fptr = &init_functions[1]
          # enter the loop with RAX holding first array entry
.L3:                         # do{
        call    *%rax
        movq    (%rbx), %rax    # load the next 
        addq    $8, %rbx        # fptr++
        testq   %rax, %rax      # and test it
        jne     .L3          # }while( *fptr != 0 )
        popq    %rbx
        ret
.L9:
        ret         # silly compiler, no need for tail duplication here.

关于assembly - call *(%rax, %rcx,8) 在循环中是什么意思?为什么RAX和RCX之后要变?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74762663/

相关文章:

assembly - x86 操作码对齐引用和指南

assembly - 缓冲输入如何工作

linux - 使用 gcc 编译和运行程序集的最小示例?

assembly - Visual Studio C++ 的函数序言

memory-management - gfortran傻瓜版:mcmodel = medium到底能做什么?

c - 为什么返回地址之前是 "NOP-Block"和Shellcode?

performance - 点乘积性能与 SSE 指令

x86 - Intel x86_64 处理器不仅是流水线架构,还是超标量架构?

windows-server-2008 - 为什么在 Windows Server 2008 x64 上重命名 reg.exe 会导致其无法运行?

vbscript - 有什么方法可以从受感染的文件中解码此恶意软件代码吗?