我正在尝试在 ARM Cortex-a8 上的 ARM 汇编中实现一个将 32 位操作数与 256 位操作数相乘的函数。问题是我的寄存器用完了,我不知道如何减少这里使用的寄存器的数量。这是我的功能:
typedef struct UN_256fe{
uint32_t uint32[8];
}UN_256fe;
typedef struct UN_288bite{
uint32_t uint32[9];
}UN_288bite;
void multiply32x256(uint32_t A, UN_256fe* B, UN_288bite* res){
asm (
"umull r3, r4, %9, %10;\n\t"
"mov %0, r3; \n\t"/*res->uint32[0] = r3*/
"umull r3, r5, %9, %11;\n\t"
"adds r6, r3, r4; \n\t"/*res->uint32[1] = r3 + r4*/
"mov %1, r6; \n\t"
"umull r3, r4, %9, %12;\n\t"
"adcs r6, r5, r3; \n\t"
"mov %2, r6; \n\t"/*res->uint32[2] = r6*/
"umull r3, r5, %9, %13;\n\t"
"adcs r6, r3, r4; \n\t"
"mov %3, r6; \n\t"/*res->uint32[3] = r6*/
"umull r3, r4, %9, %14;\n\t"
"adcs r6, r3, r5; \n\t"
"mov %4, r6; \n\t"/*res->uint32[4] = r6*/
"umull r3, r5, %9, %15;\n\t"
"adcs r6, r3, r4; \n\t"
"mov %5, r6; \n\t"/*res->uint32[5] = r6*/
"umull r3, r4, %9, %16;\n\t"
"adcs r6, r3, r5; \n\t"
"mov %6, r6; \n\t"/*res->uint32[6] = r6*/
"umull r3, r5, %9, %17;\n\t"
"adcs r6, r3, r4; \n\t"
"mov %7, r6; \n\t"/*res->uint32[7] = r6*/
"adc r6, r5, #0 ; \n\t"
"mov %8, r6; \n\t"/*res->uint32[8] = r6*/
: "=r"(res->uint32[8]), "=r"(res->uint32[7]), "=r"(res->uint32[6]), "=r"(res->uint32[5]), "=r"(res->uint32[4]),
"=r"(res->uint32[3]), "=r"(res->uint32[2]), "=r"(res->uint32[1]), "=r"(res->uint32[0])
: "r"(A), "r"(B->uint32[7]), "r"(B->uint32[6]), "r"(B->uint32[5]),
"r"(B->uint32[4]), "r"(B->uint32[3]), "r"(B->uint32[2]), "r"(B->uint32[1]), "r"(B->uint32[0]), "r"(temp)
: "r3", "r4", "r5", "r6", "cc", "memory");
}
EDIT-1:我根据第一条评论更新了我的破坏列表,但仍然遇到相同的错误
最佳答案
一个简单的解决方案是打破这个问题并且不使用“clobber”。将变量声明为“tmp1”等。尽量不要使用任何mov
语句;如果需要的话,让编译器这样做。编译器将使用一种算法来找出最佳的信息“流”。如果使用'clobber',则不能重用寄存器。现在的情况是,在汇编器执行之前先加载所有内存。这很糟糕,因为您希望内存/CPU ALU 进行管道化。
void multiply32x256(uint32_t A, UN_256fe* B, UN_288bite* res)
{
uint32_t mulhi1, mullo1;
uint32_t mulhi2, mullo2;
uint32_t tmp;
asm("umull %0, %1, %2, %3;\n\t"
: "=r" (mullo1), "=r" (mulhi1)
: "r"(A), "r"(B->uint32[7])
);
res->uint32[8] = mullo1; /* was 'mov %0, r3; */
volatile asm("umull %0, %1, %3, %4;\n\t"
"adds %2, %5, %6; \n\t"/*res->uint32[1] = r3 + r4*/
: "=r" (mullo2), "=r" (mulhi2), "=r" (tmp)
: "r"(A), "r"(B->uint32[6]), "r" (mullo1), "r"(mulhi1)
: "cc"
);
res->uint32[7] = tmp; /* was 'mov %1, r6; */
/* ... etc */
}
“gcc 内联汇编器”的全部目的不是直接在“C”文件中编写汇编器代码。就是利用编译器的寄存器分配逻辑AND做一些在‘C’中不容易完成的事情。在您的案例中使用进位逻辑。
通过不将其设为一个巨大的“asm”子句,编译器可以在需要新寄存器时安排从内存的加载。它还会将您的“UMULL”ALU 事件与加载/存储单元进行管道连接。
只有当指令隐式破坏特定寄存器时,才应使用 clobber。您还可以使用类似的内容,
register int *p1 asm ("r0");
并将其用作输出。但是,除了那些可能改变堆栈的指令之外,我不知道有任何像这样的 ARM 指令,并且您的代码当然不使用这些指令和进位。
GCC 知道如果将内存列为输入/输出,内存就会发生变化,因此您不需要内存破坏器。事实上,这是有害的,因为内存破坏者是 compiler memory barrier当编译器能够为后者安排内存时,这将导致内存被写入。
<小时/>道德是使用 gcc 内联汇编器与编译器一起工作。如果您使用汇编程序编写代码并且有大量例程,则寄存器的使用可能会变得复杂且令人困惑。典型的汇编编码器在每个例程的寄存器中仅保留一件事,但这并不总是寄存器的最佳用途。当代码大小变大时,编译器将以一种相当智能的方式对数据进行洗牌,这种方式很难被击败(在我看来,手工代码不太令人满意)。
您可能想查看the GMP library它有很多方法可以有效地解决与您的代码相同的问题。
关于c - ARM 程序集 : can’t find a register in class ‘GENERAL_REGS’ while reloading ‘asm’ ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34255236/