我正在从 2014 年的旧 CTF 中逆向一些 x86,并试图理解下面的代码(它已被大幅缩短)。我相信它正在执行某种 while 或 for 循环遍历字符串 x 次,其中 x 是字符串的长度。
一些基本信息:
- 英特尔语法
- 给定的函数原型(prototype):
- int main(char*);
我的主要困惑在于 .L3 和 .L2 的结尾:
我相信 .L3 的结尾是将寄存器运算存储在 [ebp-12] 中,然后增加 [ebp-8] 的值(我相信这是指向 char* arg 副本的指针)
.L1
push ebp
mov ebp, esp
push ebx
sub esp, 20
mov DWORD PTR [ebp-12], 0
mov eax, DWORD PTR [ebp+8]
mov DWORD PTR [ebp-8], eax
jmp .L2
.L3
// Bunch of annoying arithmetic w/ registers
mov DWORD PTR [ebp-12], eax
add DWORD PTR [ebp-8], 1
.L2:
mov eax, DWORD PTR [ebp-8]
movzx eax, BYTE PTR [eax]
test al, al
jne .L3
add esp, 20
pop ebx
pop ebp
ret
我对此的松散转换(忽略大部分 .L3)在 c 中如下:
int main(char* arg)
{
int loc1 = 0;
char* str = arg;
for(i = 0; str[i] != '\0'; i++) { // <=== Pretty Sure
// .L3 Stuff w/ Assignment to loc1 // This is incorrect
}
return loc1;
}
是否有人愿意解释 [ebp-8] 的递增,.L2 的前四行,并确认/否认在返回期间我调用的 eax 或 loc1 的值将基于结束返回.L2?
编辑:
代码中唯一有趣的部分与这三行有关,它们在 .L3 中重复出现:
mov eax, DWORD PTR [ebp-8]
movzx eax, BYTE PTR [eax]
movsx eax, al
我相信这三行是取消对指针地址的引用,对位进行零扩展,然后对 al 字节进行符号扩展。就“c”代码而言,我相信它只是用于索引数组中的每个特定字符,特别是使用其十进制值进行算术运算。
最佳答案
是的,它似乎在对字符串中的每个字符做“某事”。它可以计算散列码或 CRC,或无数种可能事物中的任何一种。不知道“烦人的数学”是什么,就没法说。
代码的更正确的 C 版本是:
int main(char* arg)
{
char* p = arg;
int loc1 = 0;
for (; *p != 0; p++)
{
loc1 = do_something_with(*p);
}
return 0;
}
如您所述,它不会返回 loc1
。终止条件在这里:
movzx eax, BYTE PTR [eax]
test al, al
jne .L3
第一条指令对 EAX 进行零扩展。因此,如果 AL 寄存器为零,那么 EAX 也为零。如果未执行跳转,则 EAX 为 0,这就是函数返回的值。
至少,在我看来是这样。但是,该功能的作用是什么。如果我的解读是正确的,那么这个函数实际上并没有做任何有用的事情。除非那个“烦人的数学”包括对外部范围内的某些变量的引用。
关于c - 带循环的反编译协助,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29504747/