c++ - 使程序在 "machine byte"中具有不同位数的机器之间可移植

标签 c++ c

我们都是可移植 C/C++ 程序的爱好者。

我们知道 sizeof(char)sizeof(unsigned char) 总是 1 “byte”。但是那个1“byte”并不意味着一个8位的字节。它只是表示一个“机器字节”,其中的位数可能因机器而异。参见 this question .


假设您将 ASCII 字母“A”写入文件 foo.txt。如今在任何具有 8 位机器字节的普通机器上,这些位将被写出:

01000001

但是如果您要在具有 9 位机器字节的机器上运行相同的代码,我想这些位会被写出:

001000001

更重要的是,后一种机器可以将这 9 位写为一个机器字节:

100000000

但是如果我们要在以前的机器上读取这些数据,我们将无法正确地完成它,因为没有足够的空间。不知何故,我们必须首先读取一个机器字节(8 位),然后以某种方式将最后的 1 位转换为 8 位(一个机器字节)。


程序员如何正确地协调这些事情?

我问的原因是我有一个写入和读取文件的程序,我想确保它不会在 5 年、10 年、50 年后出现问题。

最佳答案

How can programmers properly reconcile these things?

什么都不做。您提出了文件系统问题。

想象一下那可怕的一天,许多 9 位机器中的第一台机器启动,准备重新编译您的代码并处理您去年写入文件的 ASCII 字母 A

为了确保 C/C++ 编译器可以合理地存在于这台机器上,这台新计算机的操作系统遵循 C 和 C++ 假定的相同标准,其中文件的大小以字节为单位。

...您的 8 位源代码已经有点问题了。每个源文件的大小只有大约九分之一的机会可以存在于这个系统上。

也许不是。正如我经常遇到的情况,Johannes Schaub - litb已抢先cited the standard regarding valid formats for C++ source code .

Physical source file characters are mapped, in an implementation-defined manner, to the basic source character set (introducing new-line characters for end-of-line indicators) if necessary. Trigraph sequences (2.3) are replaced by corresponding single-character internal representations. Any source file character not in the basic source character set (2.2) is replaced by the universal-character-name that des- ignates that character. (An implementation may use any internal encoding, so long as an actual extended character encountered in the source file, and the same extended character expressed in the source file as a universal-character-name (i.e. using the \uXXXX notation), are handled equivalently.)

“以实现定义的方式。”这是个好消息...只要存在某种方法可以将您的源代码转换为 native 可以表示的任何 1:1 格式,您就可以编译并运行您的程序。

这就是您真正的问题所在。如果这台计算机的创建者足够友好地提供一个实用程序来对 8 位 ASCII 文件进行位扩展,以便它们可以实际存储在这台新机器上,那么 ASCII 字母 A 已经没有问题了很久以前写的。如果没有这样的实用程序,那么您的程序就已经需要维护了,您无法采取任何措施来阻止它。

编辑:较短的答案(解决已被删除的评论)

问题问如何处理特定 9位计算机...

  • 使用没有向后兼容的 8 位指令的硬件
  • 使用不使用“8 位文件”的操作系统。
  • 使用 C/C++ 编译器打破了 C/C++ 程序在历史上编写文本文件的方式。

Damian Conway有一个经常重复的引用将 C++ 与 C 进行比较:

"C++ tries to guard against Murphy, not Machiavelli."

他描述的是其他软件工程师,而不是硬件工程师,但意图仍然合理,因为推理是一样的。

C 和 C++ 都以某种方式标准化,要求您假设其他工程师也想表现得很好。你的马基雅维利计算机不会对你的程序构成威胁,因为它完全是对 C/C++ 的威胁。

回到你的问题:

How can programmers properly reconcile these things?

你真的有两个选择。

  • 接受您描述的计算机不适合 C/C++ 的世界
  • 接受 C/C++ 不适用于可能在您描述的计算机上运行的程序

关于c++ - 使程序在 "machine byte"中具有不同位数的机器之间可移植,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14398902/

相关文章:

c++ - 使用 QT 的菜单栏应用程序

c++ - 写入文件时如何忽略行

c - 如何产生图像噪声频率?

c - 为什么快速排序代码会破坏稳定性?

c++ - C++的轻量级数据库系统

c++ - #ifndef#define 指令是什么意思

c++ - 为什么 cin >> string 不能与 Visual C++ 2010 一起使用?

c - 来自不兼容指针类型的警告初始化 - C 函数指针数组

c - 如何格式化和合并字符串

c++ - sclite (SCTK) 安装,文件无法识别,文件格式无法识别,Cygwin