我有一个 csv 文件,其中包含以下行。正如您所看到的,数字没有用双引号括起来。
String theLine = "Corp:Industrial","5Nearest",51.93000000,"10:21:29","","","","10:21:29","7/5/2016","PER PHONE CALL WITH SAP, CORRECTING "C","359/317 97 SMRD 96.961 MADV",""
我尝试读取上面的行并使用 regEX 进行分割
String[] tokens = theLine.split(",(?=(?:[^\"]*\"[^\"]*\")*(?![^\"]*\"))");
这并不像我想要的那样在每个逗号处分开。 “与 SAP 进行的每次电话调用,更正“C”,将其搞乱,因为它有额外的 ,(逗号)和“(双引号)。有人可以帮我写一个正则表达式,它将转义一个额外的双引号和两个双引号中的逗号。
我基本上想要:
"Corp:Industrial","5Nearest",51.93000000,"10:21:29","","","","10:21:29","7/5/2016","**PER PHONE CALL WITH SAP CORRECTING C**","359/317 97 SMRD 96.961 MADV",""
最佳答案
解析器在某些工作上比正则表达式更擅长,这种事情通常就是其中之一。我并不是说您不能让它为您工作,但是...您还可以使用开源 CSV 解析器。
话虽如此,我认为您的 CSV 看起来很可疑。
"PER PHONE CALL WITH SAP, CORRECTING "C",
该值中包含三个引号 - 它是否意味着表示内部仅包含一个单引号的字符串?或者 C 和 String 都应该被引号包围吗?
通常,如果您要在双引号内包含双引号,则需要特殊的语法。对于 CSV,最常见的选项是将其加倍,或使用反斜杠等字符对其进行转义:
"PER PHONE CALL WITH SAP, CORRECTING ""C""",
或者:
"PER PHONE CALL WITH SAP, CORRECTING \"C\"",
这些都不会直接改变您使用正则表达式的问题,但是一旦您拥有格式良好的 CSV,成功解析它的几率就会上升。
关于java正则表达式删除csv中不需要的双引号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38333221/