c - 在C中创建文件头(文件的元数据)

标签 c file file-io

文件头包含有关文件元数据的所有数据。我想创建一个包含元数据的空白文件,然后我想将其他文件内容添加到此空白文件中,并且需要更改(修改)元数据。C中是否有用于创建文件头的库?如何在c语言中读写文件头?

metadata =
{
file_name;
file_size;
file_type;
file_name_size;
total_files;
}

最佳答案

可能有许多库处理特定的文件格式,例如tar上的变体,但是没有一个库适合您的特定头格式。
首先,您需要确定元数据的大小是固定的还是可变的。
如果它是固定大小的,那么在开始时跳过这么多字节,写入文件的其余部分,然后倒带并填充元数据就相对容易了。如果在开始时只知道可变大小的部分,那么您可以用同样的方式处理它—编写第一个版本,然后在完成后返回并编写最终版本。
如果你直到最后才知道可变材料的尺寸,那你就有困难了。您可能会用文件的大部分来编写一个临时文件,然后当您完成并知道所有可变大小的元数据时,您将元数据头写入一个新的(最终的)文件,然后在元数据之后复制临时文件。
请注意,您应该将文件名的大小(长度)放在磁盘上数据的实际文件名之前。然后,您可以读取名称的大小,并分配适当的空间和读取正确的数据量。把文件名的长度放在文件名本身之后真的没有多大帮助。
您还需要考虑标题是二进制数据还是文本。文件名组件将是文本,但数字可以是2字节或4字节二进制值,也可以是等效的ascii(纯文本)可变长度。调试文本表示通常更容易,但如果使用文本,则更可能需要可变长度的数据。但是,您也可以使用固定大小的空白填充。文本比二进制文件的另一个优点是,文本可以跨机器体系结构移植,而二进制文件带来了大端机和小端机的问题,等等。
您还应该考虑使用“幻数”来标识文件是否包含正确的数据类型。“数字”可能是一个ascii字符串,例如!<arch>\n头的某些版本中使用的ar。或pdf文件开头使用的%PDF-1.3\n。话虽如此,tar基本上在第一个字节中没有一个神奇的数字,但这是当今不寻常的设计。file程序知道很多关于神奇数字的知识。它的数据有时可以在一个文件中找到,比如mac os x的/usr/share/file下的文件。
你能举例说明吗?
我处理的一种文件格式是由32位(有符号)数字标识的消息,消息的长度可变,因此偏移量可变。该文件是以与平台无关的二进制格式编写的。这些数字是用大尾字母写的,msb在前面。消息编号当前限制在±99999的范围内(因此整个系统中有不到200000条消息的空间)。
文件头包含:
2字节(无符号)幻数
文件中包含的消息数的2字节(无符号)计数,n
后面是n个条目,每个条目描述一条消息:
4字节(签名)消息编号
2字节(无符号)消息长度
到消息开头的4字节(无符号)偏移量
n个条目按消息编号的顺序排序,但不要求消息编号是连续的。丢失的数字就是丢失的。
在n个条目之后,实际的消息文本随后出现,每个文本由相应条目标识的适当字节数加上ascii nul'\0'字节组成。
生成文件时,每条消息的文本将按处理顺序写入中间文件,记录文件中消息的偏移量。消息是按顺序读还是按顺序写并不重要;重要的是,从报头末尾开始的偏移量记录在报头记录中。一旦所有消息都读入,文件项的内存副本就可以按数字顺序进行排序,并可以写入最终文件。首先是幻数和消息数;然后是描述消息的n个条目;接着是从中间文件复制的消息文本。
读一条m号信息就足够简单了。你对n个条目进行二进制搜索,找到m的条目。如果没有,那么就这样做-这是个错误。如果它在那里,你知道在哪里找到它的文件和多长时间。
数据是固定的二进制格式这一事实并没有使事情复杂化。在big-endian和little-endian机器上使用相同的函数将数字读入本机格式。理论上,您可以为大端机进行优化,但前提是该机不存在数据对齐不足的问题。更简单的是忘记优化是可能的,只需在任何地方使用相同的代码。
如果上述格式被转换成文本格式,那么它可能有8个字节(比如说)为幻数保留(很可能是一个7个字母的字符串后跟一个换行符),6个字节为消息数保留(5个数字加上一个换行符)。每个消息条目可以为消息号保留6字节(数字为±99999),加上一个空间,加上长度为4字节(最大,8Kib)加上一个空间,加上8字节的偏移(7位数字加上一个换行符)。

MAGICNO
12345
-99999 8000 0000000
-90210   38 0008000
...

同样,文本文件可读性的优点是,您可以很容易地查看文件和数据的含义。
你可以在这个主题上有无尽的变化。

关于c - 在C中创建文件头(文件的元数据),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9629283/

相关文章:

c# - 文件名有两个反斜杠 C#

Python gzip 给出错误并要求输入类似字节

c - 有什么办法可以达到 "undo"C中#line的效果吗?

c - 无法理解 C 程序中 "system"函数调用的行为

c++ - 是否有不需要包含标准库的 C/C++ 编译器?

python - XML 文件偏移量和 XPath 插入元素

java - 从/向路径读取和写入 CSV

c - 写入新 WAV 时出现段错误

c - 写入 Txt Tile 时出错

C语言。数组的声明,其大小由宏#define 给出