java - 由于保存前/后 CSV 差异导致的错误解析(Java w/Apache Commons CSV)

标签 java csv encoding apache-commons-csv

我有一个 37 列的 CSV 文件,我正在使用 Apache Commons CSV 1.2 在 Java 中对其进行解析。我的设置代码如下:

//initialize FileReader object
FileReader fileReader = new FileReader(file);

//intialize CSVFormat object
CSVFormat csvFileFormat = CSVFormat.DEFAULT.withHeader(FILE_HEADER_MAPPING);

//initialize CSVParser object
CSVParser csvFileParser = new CSVParser(fileReader, csvFileFormat);

//Get a list of CSV file records
List<CSVRecord> csvRecords = csvFileParser.getRecords();

// process accordingly

我的问题是,当我将要处理的 CSV 复制到我的目标目录并运行我的解析程序时,出现以下错误:

Exception in thread "main" java.lang.IllegalArgumentException: Index for header 'Title' is 7 but CSVRecord only has 6 values!
        at org.apache.commons.csv.CSVRecord.get(CSVRecord.java:110)
        at launcher.QualysImport.createQualysRecords(Unknown Source)
        at launcher.QualysImport.importQualysRecords(Unknown Source)
        at launcher.Main.main(Unknown Source)

但是,如果我将文件复制到我的目标目录,打开并保存它,然后再次尝试该程序,它就可以运行。打开并保存 CSV 文件会在末尾添加所需的逗号,这样我的程序就不会提示没有足够的标题可供阅读。

对于上下文,这是保存前/后的示例行:

之前(失败):“数据”,“数据”,“数据”,“数据”

After (working): "data","data",,,,"data",,,"data",,,,,,

所以我的问题是:为什么 CSV 格式在我打开和保存时会发生变化?我没有更改任何值或编码,并且在保存时对于 MS-DOS 或常规 .csv 格式的行为是相同的。此外,我在测试中使用 Excel 进行复制/打开/保存。

我需要使用一些编码或格式设置吗?我可以通过编程方式解决这个问题吗?

提前致谢!

编辑#1:

对于额外的上下文,当我第一次查看原始文件中的空行时,它只有新行 ^M 字符,如下所示:

^M

在 Excel 中打开并保存后,我的 37 个空白字段看起来像这样:

,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,^M

这是 Windows 编码差异吗?

最佳答案

也许这是与最初生成文件的任何内容的兼容性问题。似乎 Excel 接受空行作为每列中包含空字符串的有效行,列数与其他行相匹配。然后它根据带有列分隔符的 CSV 约定保存它。 (^M 是回车符;在 Microsoft 系统上,它位于文本文件行尾的换行符之前)

也许您可以通过创建自己的 Reader 来处理它位于 FileReader 和 CSVParser 之间的子类。您的阅读器将读取一行,如果它是空白的,则返回包含正确数量的逗号的行。否则按原样返回该行。

例如:

class MyCSVCompatibilityReader extends BufferedReader
    {
    private final BufferedReader delegate;

    public MyCSVCompatibilityReader(final FileReader fileReader)
        {
        this.delegate = new BufferedReader(fileReader);
        }

    @Override
    public String readLine()
        {
        final String line = this.delegate.readLine();
        if ("".equals(line.trim())
            { return ",,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"; }
        else
            { return line; }
        }
    }

在实现接口(interface)的时候还有很多其他的细节需要正确实现。您需要传递对所有其他方法(关闭、就绪、重置、跳过等)的调用,并确保各种 read() 方法都能正常工作。如果文件很容易放入内存,那么只读取文件并将固定版本写入新的 StringWriter 可能会更容易。然后创建一个 StringReader到 CSVParser。

关于java - 由于保存前/后 CSV 差异导致的错误解析(Java w/Apache Commons CSV),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36653173/

相关文章:

java - 使用 Java 读取 Excel 工作表时出错

java - 将字符串数组转换为 java.util.List

python 读取.csv 文件 - 访问字段中的列表元素

python - 从 python 中的字典列表中写出一个 csv 文件

java - 导入 csv 文件以填充 Netbeans 中表中的数据

c# - ADO.NET OleDB 和非常古老的 dBASE IV 文件

java或eclipse utf8编码不正确

java - 按两个不同的属性对集合进行排序

java - 抽象类之间的差异接口(interface)

text - Haskell:在 ByteStrings 和不同的文本编码之间进行转换