linux - 一个 C hello world 的汇编输出的每一行是什么意思?

标签 linux gcc assembly x86

我在这个上运行了 gcc -S :

int main()
{
printf ("Hello world!");
}

我得到了这个汇编代码:
        .file   "test.c"
        .section        .rodata
.LC0:
        .string "Hello world!"
        .text
.globl main
        .type   main, @function
main:
        leal    4(%esp), %ecx
        andl    $-16, %esp
        pushl   -4(%ecx)
        pushl   %ebp
        movl    %esp, %ebp
        pushl   %ecx
        subl    $20, %esp
        movl    $.LC0, (%esp)
        call    printf
        addl    $20, %esp
        popl    %ecx
        popl    %ebp
        leal    -4(%ecx), %esp
        ret
        .size   main, .-main
        .ident  "GCC: (GNU) 4.3.0 20080428 (Red Hat 4.3.0-8)"
        .section        .note.GNU-stack,"",@progbits

我很想了解这个输出。有人可以分享一些理解此输出的指针,或者如果有人可以针对这些行/行组中的每一行标记注释,解释它的作用,那就太好了。

最佳答案

这是怎么回事:

        .file   "test.c"

原始源文件名(由调试器使用)。
        .section        .rodata
.LC0:
        .string "Hello world!"

“.rodata”部分包含一个以零结尾的字符串(“ro”表示“只读”:应用程序将能够读取数据,但任何写入数据的尝试都会触发异常)。
        .text

现在我们将内容写入“.text”部分,这是代码所在的位置。
.globl main
        .type   main, @function
main:

我们定义了一个名为“main”且全局可见的函数(其他目标文件将能够调用它)。
        leal    4(%esp), %ecx

我们存储在寄存器 %ecx4+%esp ( %esp 是堆栈指针)。
        andl    $-16, %esp
%esp稍作修改,使其成为 16 的倍数。 对于某些数据类型(对应 C 的 doublelong double 的浮点格式),内存访问在地址为 16 的倍数时性能更好。这在这里并不是真正需要的,但是当在没有优化标志(-O2 ...)的情况下使用时,编译器往往会产生相当多的通用无用代码(即在某些情况下可能有用但在这里没有用的代码)。
        pushl   -4(%ecx)

这个有点奇怪:在这一点上,地址 -4(%ecx) 处的单词是在 andl 之前位于堆栈顶部的单词.代码检索那个词(顺便说一下,它应该是返回地址)并再次推送它。这种模拟从具有 16 字节对齐堆栈的函数调用将获得的内容。我的猜测是这个 push是参数复制序列的残余。由于函数已经调整了堆栈指针,它必须复制函数参数,这些参数可以通过堆栈指针的旧值访问。这里没有参数,除了函数返回地址。请注意,不会使用这个词(同样,这是没有优化的代码)。
        pushl   %ebp
        movl    %esp, %ebp

这是标准函数序言:我们保存 %ebp (因为我们要修改它),然后设置%ebp指向堆栈帧。此后,%ebp将用于访问函数参数,使得 %esp又免费了。 (是的,没有参数,所以这对那个函数没用。)
        pushl   %ecx

我们保存 %ecx (我们将在函数退出时需要它,以将 %esp 恢复为它在 andl 之前的值)。
        subl    $20, %esp

我们在堆栈上保留了 32 个字节(记住堆栈是“向下”增长的)。该空间将用于存储 printf() 的参数。 (这是矫枉过正,因为只有一个参数,它将使用 4 个字节 [这是一个指针])。
        movl    $.LC0, (%esp)
        call    printf

我们将参数“推”到 printf() (即我们确保 %esp 指向包含参数的单词,这里是 $.LC0 ,它是rodata 部分中常量字符串的地址)。然后我们打电话printf() .
        addl    $20, %esp

printf()返回,我们删除为参数分配的空间。此 addl取消什么 subl上面做了。
        popl    %ecx

我们找回 %ecx (推到上面); printf()可能已经修改了它(调用约定描述了函数可以修改哪个寄存器而不在退出时恢复它们;%ecx 就是这样一个寄存器)。
        popl    %ebp

功能结语:这个恢复%ebp (对应于上面的 pushl %ebp)。
        leal    -4(%ecx), %esp

我们恢复 %esp到它的初始值。这个操作码的作用是存储在%esp%ecx-4 . %ecx在第一个函数操作码中设置。这将取消对 %esp 的任何更改,包括 andl .
        ret

函数退出。
        .size   main, .-main

这设置了 main() 的大小功能:在汇编过程中的任何时候,“.”是“我们现在添加东西的地址”的别名。如果在此处添加另一条指令,它将到达“.”指定的地址。因此,这里的“.-main”是函数main()的代码的确切大小。 . .size指令指示汇编器将该信息写入目标文件。
        .ident  "GCC: (GNU) 4.3.0 20080428 (Red Hat 4.3.0-8)"

GCC 只是喜欢留下其行动的痕迹。该字符串最终作为目标文件中的一种注释。链接器将删除它。
        .section        .note.GNU-stack,"",@progbits

GCC 写的一个特殊部分,代码可以容纳不可执行的堆栈。这是正常情况。某些特殊用途(非标准 C)需要可执行堆栈。在现代处理器上,内核可以创建一个不可执行的堆栈(如果有人试图将堆栈上的某些数据作为代码执行,该堆栈会触发异常);这被一些人视为“安全功能”,因为将代码放在堆栈上是利用缓冲区溢出的常见方法。有了这个部分,可执行文件将被标记为“与非可执行堆栈兼容”,内核很乐意提供它。

关于linux - 一个 C hello world 的汇编输出的每一行是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5325326/

相关文章:

linux - 通过 SSH 连接到 Raspberry Pi,无需端口转发

c - (C 中的内联汇编)汇编程序消息 : Error: unknown pseudo-op:

linux - debian vps 上的 gvm 安装错误

c - 如何使用 GCC 获取与程序集输出内联的源代码行?

c - assembly - 来自堆栈的编号

PHP 默认时区

linux - 脚本检查文件是否存在

c++ - 严格的别名似乎不一致

c - x86 上交换与比较和交换锁的相对性能

linux -/运行目录: how to create it at first boot to store runtime data