c - 带循环的反编译协助

标签 c assembly x86 decompiling

我正在从 2014 年的旧 CTF 中逆向一些 x86,并试图理解下面的代码(它已被大幅缩短)。我相信它正在执行某种 while 或 for 循环遍历字符串 x 次,其中 x 是字符串的长度。

一些基本信息:

  • 英特尔语法
  • 给定的函数原型(prototype):
    • int main(char*);

我的主要困惑在于 .L3 和 .L2 的结尾:

我相信 .L3 的结尾是将寄存器运算存储在 [ebp-12] 中,然后增加 [ebp-8] 的值(我相信这是指向 char* arg 副本的指针)

.L1
    push    ebp    
    mov     ebp, esp
    push    ebx 
    sub     esp, 20 
    mov     DWORD PTR [ebp-12], 0
    mov     eax, DWORD PTR [ebp+8]
    mov     DWORD PTR [ebp-8], eax
    jmp     .L2
.L3
    // Bunch of annoying arithmetic w/ registers
    mov     DWORD PTR [ebp-12], eax     
    add     DWORD PTR [ebp-8], 1        
.L2:
    mov     eax, DWORD PTR [ebp-8]      
    movzx   eax, BYTE PTR [eax]         
    test    al, al                      
    jne     .L3                             
    add     esp, 20
    pop     ebx
    pop     ebp
    ret

我对此的松散转换(忽略大部分 .L3)在 c 中如下:

int main(char* arg)
{
    int loc1 = 0;
    char* str = arg;
    for(i = 0; str[i] != '\0'; i++) {         //  <=== Pretty Sure
         // .L3 Stuff w/ Assignment to loc1   //  This is incorrect
    }
    return loc1;
}

是否有人愿意解释 [ebp-8] 的递增,.L2 的前四行,并确认/否认在返回期间我调用的 eax 或 loc1 的值将基于结束返回.L2?

编辑:

代码中唯一有趣的部分与这三行有关,它们在 .L3 中重复出现:

    mov    eax, DWORD PTR [ebp-8]
    movzx  eax, BYTE PTR [eax]    
    movsx  eax, al

我相信这三行是取消对指针地址的引用,对位进行零扩展,然后对 al 字节进行符号扩展。就“c”代码而言,我相信它只是用于索引数组中的每个特定字符,特别是使用其十进制值进行算术运算。

最佳答案

是的,它似乎在对字符串中的每个字符做“某事”。它可以计算散列码或 CRC,或无数种可能事物中的任何一种。不知道“烦人的数学”是什么,就没法说。

代码的更正确的 C 版本是:

int main(char* arg)
{
    char* p = arg;
    int loc1 = 0;
    for (; *p != 0; p++)
    {
        loc1 = do_something_with(*p);
    }
    return 0;
}

如您所述,它不会返回 loc1。终止条件在这里:

movzx   eax, BYTE PTR [eax]         
test    al, al                      
jne     .L3                             

第一条指令对 EAX 进行零扩展。因此,如果 AL 寄存器为零,那么 EAX 也为零。如果未执行跳转,则 EAX 为 0,这就是函数返回的值。

至少,在我看来是这样。但是,该功能的作用是什么。如果我的解读是正确的,那么这个函数实际上并没有做任何有用的事情。除非那个“烦人的数学”包括对外部范围内的某些变量的引用。

关于c - 带循环的反编译协助,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29504747/

相关文章:

assembly - 为什么即使启用了 intel_syntax,十六进制 'h' 后缀在 GNU 汇编器中也不起作用?

assembly - 从哪里获得硬件的 I/O 端口地址分配?

assembly - ascii char 到 char 的转换 汇编x86?

C 编程类型转换和 sizeof()

c - C语言中的简单链表程序

c++ - 在 OSX Yosemite 上的 Emacs 中使用 LLVM 调试器

assembly - 外部符号的目标文件链接如何工作?

assembly - 从启动开始跟踪指令执行

c++ - 与 double 混合时使用 int 和 unsigned int 之间的速度差异