c++ - IEEE 浮点实现、精度和近似值的累积

标签 c++ floating-point implementation floating-accuracy approximation

<分区>

如果我正确理解 IEEE float ，它们无法准确表示某些值。它们在非常有限的情况下是准确的，几乎每个浮点运算都会增加累积的近似值。此外，还有另一个缺点 - “最小步长”随指数增长。

提供一些更具体的表示不是更好吗？

例如，“十进制”部分使用 20 位，但不是所有 2^20 值，而是仅 1000000，给出完整的 1/百万分之一最小可能表示/分辨率，并将其他 44 位用于整数部分，给出了相当大的范围。这样，“浮点”数可以使用整数运算来计算，甚至可能更快结束。并且在乘法、加法和减法的情况下，没有近似值的累积，唯一可能的损失是在除法过程中。

这个概念基于这样一个事实，即 2^n 值对于表示十进制数来说并不是最佳的，例如1 不能很好地分成 1024 个部分，但它可以很好地分成 1000 个部分。从技术上讲，这忽略了使用完整的精度，但我可以想到很多情况下，LESS 可以是 MORE。

当然，这种方法会在某种程度上失去范围和精度，但在所有不需要四肢的情况下，这样的表示听起来是个好主意。

最佳答案

你所说的命题是不动点算术。现在，这不一定是更好或更差；每种表现形式都有优点和缺点，这往往使一种表现形式比另一种表现形式更适合某些特定目的。例如:

不动点运算不会为加法和减法等运算引入循环误差，这使其适用于金融计算。您当然不想将钱存储为浮点值。
推测:可以说，定点运算在实现方面更简单，这可能会导致更小、更高效的电路。
浮点表示的范围非常大:它可以用来存储非常大的数字(~10⁴⁰ 对于 32 位 float ，10³⁰⁸对于 64 位)和非常小的正值(~10^-320)以牺牲精度为代价，而定点表示线性受其大小限制。
浮点精度在可表示范围内的分布不均匀。相反，大多数值(根据可表示数字的数量)位于 0 附近的单位球内。这使得它在我们最常操作的范围内非常准确。

你自己说的:

Technically, this is omitting to make use of the full precision, but I can think of plenty of cases where LESS can be MORE

没错，这就是重点。现在，必须根据手头的问题做出选择。没有放之四海而皆准的表示法，它始终是一种权衡。

关于c++ - IEEE 浮点实现、精度和近似值的累积，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18721057/

上一篇：c++ - 将复杂数据从主机传输到设备的简单 CUDA 代码问题

下一篇：c++ - 避免不必要的负载 (SSE/AVX)

相关文章：

c - C中下溢和nan有什么区别？

stack - 如何用 LISP 语言实现 Stack

c - All-pairs 最短路径问题的最快实现？

c++ - 如何在继续更新和绘制游戏项目的同时检查键盘输入

c++ - 从复杂(嵌套)mpl 序列转换而来的 boost::fusion::result_of::as_set(或 as_vector)

C++ 继承相同类型签名的成员函数(影子)

python - Pandas df.loc 比较浮点条件从不工作

c++ - 无法使用 catch (...) 捕获 c++ 异常

python - 如何将十六进制字符串转换为浮点型(Little Endian)

java - 自动化工作 : Importing Powerpoint Bullet Text into an Excel Sheet