c - IEEE-754: "smallest"溢出条件

标签 c floating-point overflow precision ieee-754

在我开始之前,先了解一些背景信息:

我正在 ARM7 微 Controller (LPC2294/01) 上运行裸机应用程序,该微 Controller 使用编译器标准数学库(符合 IEEE-754 标准)在 Keil uVision3 中编译。

问题: 我无法理解究竟是什么构成了 2 个单精度浮点输入之和的“溢出”。

最初,我的印象是,如果我试图将任何正值添加到可以用 IEEE-754 表示法表示的最大值,结果会产生溢出异常。

例如,假设我有:

 a = 0x7f7fffff (ie. 3.4028235..E38);
 b = 0x3f800000 (ie. 1.0)

我预计将这两个值相加会导致 IEEE-754 中定义的溢出。最初令我惊讶的是,结果只是返回了 'a' 的值,没有任何异常被标记。

然后我想,由于精度(或分辨率,如果你喜欢的话)随着所表示的值的增加而降低,在这种情况下,值“1”可能由于其相对微不足道而被有效地向下舍入为 0。

所以这引出了一个问题:在这种情况下会导致溢出异常的 'b' 的最小值是多少?是否取决于IEEE-754的具体实现?

也许就像我不理解如何在这种特殊情况下确定最小“显着”精度一样简单,但给出下面的代码,为什么第二个总和会导致溢出而不是第一个?

static union sFloatConversion32
{
     unsigned int unsigned32Value;
     float floatValue;
} sFloatConversion32;

t_bool test_Float32_Addition(void)
{
   float a;
   float b;
   float c;

   sFloatConversion32.unsigned32Value = 0x7f7fffff;
   a = sFloatConversion32.floatValue;

   sFloatConversion32.unsigned32Value = 0x72ffffff;
   b = sFloatConversion32.floatValue;

   /* This sum returns (c = a) without overflow */
   c = a + b;

   sFloatConversion32.unsigned32Value = 0x73000000;
   b = sFloatConversion32.floatValue;

   /* This sum, however, causes an overflow exception */
   c = a + b;
}

是否存在可以应用的通用规则,以便可以提前知道(即,无需执行求和)给定两个 float ,它们的求和将导致 IEEE-754 定义的溢出?

最佳答案

当结果受到格式范围的影响时,就会发生溢出。只要正常舍入将结果保持在有限范围内,就不会发生溢出,因为结果与指数无界时的结果相同——结果在考虑范围之前通过正常舍入减少了。所以没有因范围而异常(exception)。

当四舍五入的结果不适合格式的有限范围时,则无法产生有限结果,因此发生溢出异常并产生无穷大。

在 IEEE 754 中,正常操作实际上有两个步骤:

  • 计算出准确的数学结果。
  • 将精确的数学结果舍入到最接近的可表示值。

IEEE 754 定义当且仅当上述结果的幅度超过最大可表示有限值时才会发生溢出。换句话说,溢出不会仅仅因为超出了最大可表示值而发生,而是仅当超出最大可表示值以至于浮点运算的正常方式不起作用时才发生。

因此,如果您从最大可表示值开始并向其添加一个小数字,结果将简单地四舍五入到最大可表示值(当使用舍入到最近值时)。 IEEE 754 认为这是正常的——所有的算术运算都是四舍五入的,如果四舍五入使结果保持在界限内,那是正常的,没有异常(exception)。即使指数范围是无限的,正常的舍入也会产生相同的结果。由于这是不受限制范围影响的正常结果,因此没有发生异常。

只有当数学结果大到如果我们不受指数限制时四舍五入会产生下一个更高的数字时,才会发生溢出。 (但是,由于我们已经达到指数范围的限制,我们必须返回无穷大。)

IEEE-754 基本 32 位二进制 float 的最大可表示值为 2128−2104。此时,可表示数之间的步长以2104为单位。使用舍入到最近的规则,将任何小于半步的数字 2103 添加到这将舍入到 2128−2104,不会发生溢出。如果您添加一个大于 2103 的数字,那么如果指数可以达到那么高,结果将四舍五入为 2128。相反,会产生无穷大并发生溢出异常。 (如果恰好加上 2103,则使用并列规则。此规则表示选择具有偶数位的候选者。这会产生 2128,因此它也溢出。)

因此,对于最近舍入法,溢出发生在步骤的中点。使用其他舍入规则,溢出发生在不同的点。使用向无穷大舍入(向上舍入),将任何正值,甚至是 2−149 加到 2128−2104 都会导致溢出。使用向零舍入,将任何小于 2104 的值添加到 2128−2104 都不会溢出。

关于c - IEEE-754: "smallest"溢出条件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51994695/

相关文章:

python - 如何在 Windows 7 中安装 pywin32 模块

floating-point - OCaml 如何管理 float 加法?

floating-point - 哪些语言向开发人员公开了 IEEE 754 陷阱?

angularjs - angularjs 指令中的 iScroll

c - 防止c中字符串溢出

c++ - C 删除链表中的节点

c - 为什么 Linux 内核 #define 一个符号作为它自己?

c - 打印 1000er 分隔值

java - 如何在 Java 中处理 float 的精度错误?

c - 经典书籍 "The C Programming Language"中1.9章的示例代码是否有错误?