java - fatal error :1:40: Content is not allowed in prolog

标签 java xml xml-parsing

我有一个以 UTF-16 LE 编码的 super 简单的 XML 文档。

<?xml version="1.0" encoding="utf-16"?><X id="1" />

我正在这样加载它(使用jcabi-xml):

BOMInputStream bomIn = new BOMInputStream(Main.class.getResourceAsStream("resources/test.xml"), ByteOrderMark.UTF_16LE);
String firstNonBomCharacter = Character.toString((char)bomIn.read());
Reader reader = new InputStreamReader(bomIn, "UTF-16");
String xmlString = IOUtils.toString(reader);
xmlString = xmlString.trim();
xmlString = firstNonBomCharacter + xmlString;
bomIn.close();
reader.close();
final XML xml = new XMLDocument(xmlString);

我通过保存文件并使用十六进制编辑器检查它来检查是否没有额外的 BOM/垃圾符号(前导或任何地方)。 XML 格式正确。

但是,我仍然收到以下错误:

[Fatal Error] :1:40: Content is not allowed in prolog.
Exception in thread "main" java.lang.IllegalArgumentException: Invalid XML: "<?xml version="1.0" encoding="utf-16"?><X id="1" />"
    at com.jcabi.xml.DomParser.document(DomParser.java:115)
    at com.jcabi.xml.XMLDocument.<init>(XMLDocument.java:155)
    at Main.getTransformedString(Main.java:47)
    at Main.main(Main.java:26)
Caused by: org.xml.sax.SAXParseException; lineNumber: 1; columnNumber: 40; Content is not allowed in prolog.
    at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(Unknown Source)
    at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(Unknown Source)
    at javax.xml.parsers.DocumentBuilder.parse(Unknown Source)
    at com.jcabi.xml.DomParser.document(DomParser.java:105)
    ... 3 more

我已经用谷歌搜索了这个错误,但他们都说这是 BOM 的错误,我已经确认(据我所知)事实并非如此。还有什么可能是错误的?

最佳答案

以下内容对我有用:

    try (InputStream stream = Test.class.getResourceAsStream("/Test.xml")) {
        StreamSource source = new StreamSource(stream);
        final XML xml = new XMLDocument(source);
    }

使用输入文件的十六进制转储:

FF FE 3C 00 3F 00 78 00 6D 00 6C 00 20 00 76 00 65 00 72 00 73 00 69 00  
6F 00 6E 00 3D 00 27 00 31 00 2E 00 30 00 27 00 20 00 65 00 6E 00 63 00 
6F 00 64 00 69 00 6E 00 67 00 3D 00 27 00 55 00 54 00 46 00 2D 00 31 00 
36 00 27 00 3F 00 3E 00 3C 00 58 00 20 00 69 00 64 00 3D 00 22 00 31 00 
22 00 2F 00 3E 00

据我所知,在您的示例中,您正在将文件的内容转换为字符串。但这是有问题的,因为当您将字节转换为字符串时,您实际上丢弃了编码。当 SAX 解析器将字符串转换为字节数组时,它决定它将是 UTF-8,但 prolog 声明它是 UTF-16,所以你遇到了问题。

相反,当我使用 StreamSource 时,它​​只是自动检测文件是通过 BOM 以 UTF-16 LE 编码的事实。

如果您没有使用 java-7 或更高版本并且无法使用 try-with-resources,则像以前一样使用stream.close()。

关于java - fatal error :1:40: Content is not allowed in prolog,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36070911/

相关文章:

java - Android Studio - 带有图像的 Activity 会使模拟器崩溃,但可以在手机中使用

java - Grails:如何使用 grails 约束定义主从 View

java - 无法在 Spring 中配置用于集成测试的模块 - 没有可用的任务

python - 从 Python minidom XML 获取标签列表

java - 如何加速 Android XML 解析?

java - C#按位异或(^)与Java按位异或(^)对比

php - Xpath 查询包含

php simplexml_load_file - 无法在 print_r 中看到

python-2.7 - 在 Beautiful Soup 中使用 ="1.0"时如何删除 <?xml version ="utf-8"encoding "xml"?>

java - 建议用 Java 解析此 XML