c# - 如何读取字节和字符串的混合文件

标签 c# .net binary byte streamreader

我有一个包含大量字符串行和部分字节编码数据的混合文件。 示例:

--Begin Attach
Content-Info: /Format=TIF
Content-Description: 30085949.tif (TIF File)
Content-Transfer-Encoding: binary; Length=220096
II*II* Îh  ÿÿÿÿÿÿü³küìpsMg›Êq™Æ™Ôd™‡–h7ÃAøAú áùõ=6?Eã½/ô|û ƒú7z:>„Çÿý<þ¯úýúßj?å¿þÇéöûþ“«ÿ¾ÁøKøÈ%ŠdOÿÞÈ<,Wþ‡ÿ·ƒïüúCÿß%Ï$sŸÿÃÿ÷‡þåiò>GÈù#ä|‘ò:#ä|Š":#¢:;ˆèŽˆèʤV‘ÑÑÑÑÑÑÑÑÑçIþ×o(¿zHDDDDDFp'.Ñ:ˆR:aAràÁ¬LˆÈù!ÿÿï[ÿ¯Äàiƒ"VƒDÇ)Ê6PáÈê$9C”9C†‡CD¡pE@¦œÖ{i~Úý¯kköDœ4ÉU”8`ƒt!l2G
--End Attach--

我尝试用流阅读器读取文件:

string[] lines = System.IO.File.ReadAllLines(@"C:\Users\Davide\Desktop\20041230000D.xmm")

我逐行读取文件,当行等于“Content-Transfer-Encoding: binary; Length=220096”时,我读取以下所有行并写入一个“文件名”(在本例中为 30085949.tif)文件. 但我正在读取字符串,而不是字节数据,结果文件已损坏(现在我尝试使用 tiff 文件)。对我有什么建议吗?

解决方案 感谢您的回复。我采用了这个解决方案:我构建了一个 LineReader extend BinaryReader:

 public class LineReader : BinaryReader
    {
        public LineReader(Stream stream, Encoding encoding)
            : base(stream, encoding)
        {

        }

        public int currentPos;
        private StringBuilder stringBuffer;

        public string ReadLine()
        {
            currentPos = 0;

            char[] buf = new char[1];

            stringBuffer = new StringBuilder();
            bool lineEndFound = false;

            while (base.Read(buf, 0, 1) > 0)
            {
                currentPos++;
                if (buf[0] == Microsoft.VisualBasic.Strings.ChrW(10))
                {
                    lineEndFound = true;
                }
                else
                {                   
                    stringBuffer.Append(buf[0]);                    
                }
                if (lineEndFound)
                {
                    return stringBuffer.ToString();
                }

            }
            return stringBuffer.ToString();

        }

    }

Microsoft.VisualBasic.Strings.ChrW(10) 是换行符。 当我解析我的文件时:

    using (LineReader b = new LineReader(File.OpenRead(path), Encoding.Default))
    {
        int pos = 0;
        int length = (int)b.BaseStream.Length;
        while (pos < length)
        {
            string line = b.ReadLine();
            pos += (b.currentPos);

            if (!beginNextPart)
            {
                if (line.StartsWith(BEGINATTACH))
                {
                    beginNextPart = true;

                }
            }
            else
            {
                if (line.StartsWith(ENDATTACH))
                {
                    beginNextPart = false;
                }
                else
                {
                    if (line.StartsWith("Content-Transfer-Encoding: binary; Length="))
                    {
                        attachLength = Convert.ToInt32(line.Replace("Content-Transfer-Encoding: binary; Length=", ""));
                        byte[] attachData = b.ReadBytes(attachLength);
                        pos += (attachLength);
                        ByteArrayToFile(@"C:\users\davide\desktop\files.tif", attachData);
                    }
                }
            }
        }
    }

我从文件中读取了一个字节长度,然后读取了 n 个字节。

最佳答案

这里的问题是 StreamReader 假定它是唯一读取文件的东西,因此它会提前读取。最好的办法是将文件读取为二进制文件,并使用适当的文本编码从您自己的缓冲区中检索字符串数据。

显然您不介意将整个文件读入内存,您可以从以下内容开始:

byte[] buf = System.IO.File.ReadAllBytes(@"C:\Users\Davide\Desktop\20041230000D.xmm");

然后假设您对文本数据使用 UTF-8:

int offset = 0;
int binaryLength = 0;
while (binaryLength == 0 && offset < buf.Length) {
    var eolIdx = Array.IndexOf(offset, 13); // In a UTF-8 stream, byte 13 always represents newline
    string line = System.Text.Encoding.UTF8.GetString(buf, offset, eolIdx - offset - 1);

    // Process your line appropriately here, and set binaryLength if you expect binary data to follow

    offset = eolIdx + 1;
}

// You don't necessarily need to copy binary data out, but just to show where it is:
var binary = new byte[binaryLength];
Buffer.BlockCopy(buf, offset, binary, 0, binaryLength);

如果您希望使用窗口样式的行结尾,您可能还想执行 line.TrimEnd('\r')

关于c# - 如何读取字节和字符串的混合文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15613898/

相关文章:

c# - 订阅 RSS 提要

c# - .net framework 上的 startup 和 startup.auth 代码放在哪里(不是 .net core)

c# - SQL 数据读取器 - 处理 Null 列值

c# - 为什么 Enumerable.Range 实现 IDisposable?

php - 将 PHP 文件转换为二进制文件

c# - 为什么这会导致长整数溢出

c# - 以编程方式设置 MaxItemsInObjectGraph

c# - Word 模板中动态内容的自定义占位符/标签

c++ - bool 变量可以存储超过 0x01 吗?

java - 如何在java中打开hex文件?