c# - 使用 TextFieldParser 处理包含未转义双引号的字段

标签 c# parsing csv file-io

我正在尝试使用 TextFieldParser 导入 CSV 文件.一个特定的 CSV 文件由于其非标准格式而给我带来了问题。有问题的 CSV 的字段用双引号括起来。当特定字段中存在一组额外的未转义双引号时,就会出现问题。

这是一个突出问题的过度简化的测试用例。我正在处理的实际 CSV 文件的格式并不完全相同,并且有几十个字段,其中任何一个都可能包含这些可能棘手的格式问题。

TextReader reader = new StringReader("\"Row\",\"Test String\"\n" +
    "\"1\",\"This is a test string.  It is parsed correctly.\"\n" +
    "\"2\",\"This is a test string with a comma,  which is parsed correctly\"\n" +
    "\"3\",\"This is a test string with double \"\"double quotes\"\". It is parsed correctly\"\n" +
    "\"4\",\"This is a test string with 'single quotes'. It is parsed correctly\"\n" +
    "5,This is a test string with fields that aren't enclosed in double quotes.  It is parsed correctly.\n" +
    "\"6\",\"This is a test string with single \"double quotes\".  It can't be parsed.\"");

using (TextFieldParser parser = new TextFieldParser(reader))
{
    parser.Delimiters = new[] { "," };
    while (!parser.EndOfData)
    {
        string[] fields= parser.ReadFields();
        Console.WriteLine("This line was parsed as:\n{0},{1}",
            fields[0], fields[1]);
    }
}

有没有办法使用 TextFieldParser 正确解析具有这种格式的 CSV?

最佳答案

我同意 Hans Passant 的建议,即解析格式错误的数据不是您的责任。但是,根据Robustness Principle ,某些面临这种情况的人可能会尝试处理特定类型的畸形数据。我在下面编写的代码适用于问题中指定的数据集。基本上它会检测格式错误行上的解析器错误,根据第一个字符确定它是否被双引号包裹,然后手动拆分/去除所有包裹的双引号。

using (TextFieldParser parser = new TextFieldParser(reader))
{
    parser.Delimiters = new[] { "," };

    while (!parser.EndOfData)
    {
        string[] fields = null;
        try
        {
            fields = parser.ReadFields();
        }
        catch (MalformedLineException ex)
        {
            if (parser.ErrorLine.StartsWith("\""))
            {
                var line = parser.ErrorLine.Substring(1, parser.ErrorLine.Length - 2);
                fields = line.Split(new string[] { "\",\"" }, StringSplitOptions.None);
            }
            else
            {
                throw;
            }
        }
        Console.WriteLine("This line was parsed as:\n{0},{1}", fields[0], fields[1]);
    }
}

我确信有可能编造一个失败的病态示例(例如,字段值中与双引号相邻的逗号)但任何此类示例在最严格的意义上可能是不可解析的,而问题行在尽管格式不正确,但该问题仍可破译。

关于c# - 使用 TextFieldParser 处理包含未转义双引号的字段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16225909/

相关文章:

c# - 如何在验证器最初启用时隐藏验证器的错误文本

c# - 带有 C# 后端的 HTML5 和 JS 前端

python - 在 python 中使用 ElementTree 进行 XML 解析时检查子级是否存在

php - 将数据透视表模板从 csv(Excel) 移动到 MySQL

c# - 如何等待我的线程完成

java - ElasticSearch支持AND、OR、NOT任意组合

Java解析字符串

python - 如何在 python 中使用 mmap 打开 csv 文件以进行读取?

php - 如何在一个选项卡或窗口中更新最新的 ID,同时在不同的选项卡或窗口中插入记录?

c# - 我可以在 PageLoad 事件之前调用 dropdownlist selectedIndexchanged 吗?