java - 最新的 Open JDK 8 JAXB 库无法解码具有包含换行符的属性的对象

标签 java xml oracle jaxb unmarshalling

我在 Ubuntu 16.04 上使用 Java。最近我升级到使用 oracle-java8-installer 包安装的 Open JDK java 版本“1.8.0_161”(包版本 8u161-1~webupd8~0)。自从进行此升级后,我在对 Java 对象进行 JAXB 编码时遇到了新的异常。

具体来说,当尝试使用 JAXB 将 Java 对象编码为 XML 时,如果 Java 对象具有包含任何换行符(“\n”)字符的 String 属性并且该 String 属性被序列化为元素,我会得到以下异常XML 中的内容。 (顺便说一句,如果将 String 属性序列化为属性内容,则 String 值中的任何换行符都将转换为空格字符,并且不会触发异常。)

似乎正在发生的事情是

com.sun.xml.internal.bind.v2.runtime.output.XMLStreamWriterOutput$NewLineEscapeHandler.escape

将 Java 对象的 String 属性中的换行符转换为实体引用 。然后将此实体引用写出到 XML 输出流,但在验证实体引用名称时,会抛出异常,因为 #xa 未被识别为有效的实体引用名称。

这是预期的行为吗?如果是这样,我应该怎么做才能在 Java 对象的序列化中保留换行符?如果没有,我应该怎么做才能解决这个问题?

堆栈跟踪的相关部分是:

... Caused by: javax.xml.stream.XMLStreamException: Invalid name start character '#' (code 35) (name "#xa")
at com.fasterxml.aalto.out.XmlWriter.throwOutputError(XmlWriter.java:472)
at com.fasterxml.aalto.out.XmlWriter.reportNwfName(XmlWriter.java:383)
at com.fasterxml.aalto.out.ByteXmlWriter.verifyNameComponent(ByteXmlWriter.java:235)
at com.fasterxml.aalto.out.ByteXmlWriter.constructName(ByteXmlWriter.java:181)
at com.fasterxml.aalto.out.WNameTable.findSymbol(WNameTable.java:324)
at com.fasterxml.aalto.out.StreamWriterBase.writeEntityRef(StreamWriterBase.java:615)
at net.galexy.fieldguide.jaxb.CustomXMLStreamWriter.writeEntityRef(CustomXMLStreamWriter.java:198)
at com.sun.xml.internal.bind.v2.runtime.output.XMLStreamWriterOutput$XmlStreamOutWriterAdapter.writeEntityRef(XMLStreamWriterOutput.java:277)
at com.sun.xml.internal.bind.v2.runtime.output.XMLStreamWriterOutput$NewLineEscapeHandler.escape(XMLStreamWriterOutput.java:242)
... 60 more

例如,如果我解码以下 XML:

<?xml version='1.0' encoding='UTF-8'?>
<description>
   <note>The text of the note</note>
</description>

然后尝试将其编码回 XML,然后不会抛出异常。

但是,如果在笔记内容中间换行:

<?xml version='1.0' encoding='UTF-8'?>
<description>
   <note>The text of
         the note</note>
</description>

然后抛出异常。

正在使用的 JAXB 上下文是 com.sun.xml.internal.bind.v2.runtime.JAXBContextImpl

正在使用的 JAXB 编码器是 com.sun.xml.internal.bind.v2.runtime.MarshallerImpl

在寻找有关更改的更多信息时,我发现了以下错误报告,该报告表明其他人也遇到了与此版本的 JAXB 相同的更改:

JDK-8196491 Newlines in JAXB string values of SOAP-requests are escaped to "&#xa;"

this stack overflow question 的答案建议我可以通过让编码器使用 com.sun.xml.bind.marshaller.CharacterEscapeHandler 的自定义实现来恢复对字符转义的控制。

这让我感到困惑,因为 javax.xml.bind.Marshaller 似乎没有声明静态属性名称 com.sun.xml.bind.marshaller.CharacterEscapeHandler 而它确实声明了其他属性名称,例如 Marshaller.JAXB_FORMATTED_OUTPUT,等于 "jaxb.formatted.output

即使我可以指示编码器使用我的自定义字符转义处理程序,我也不完全确定我应该在该转义处理程序中做什么。是否有一个合适的基本转义处理程序,我可以覆盖它以继承所有标准转义处理,以确保我进行干预以停止转义换行符?

我也试过 Oracle Java 9(包版本 9.0.4-1~webupd8~0),那个版本的 Java 也有同样的问题。

我还尝试了下一个版本的 Oracle Java 8 (1.8.0_162),那个版本也有同样的问题。

从 Oracle 网站 (1.8.0_152) 下载旧版本的 Java 可以解决问题,但不是解决问题的令人满意的方法。

最佳答案

在我的例子中,我使用 JAXB 通过 StAX/WoodStox 将一些对象转换为 XML 并将它们序列化为一个文件。我设法通过过滤正在序列化的 XML 来解决问题。详细来说,方法是这样的:

  1. 定义自定义 StreamWriter2Delegate , 覆盖 writeEntityRef() ,因此,当此方法接收到错误的实体代码(#xd#xa)时,它会调用其委托(delegate)来实际写回原始字符(即 \n\r),实际上不需要转义:

    @Override
    public void writeEntityRef ( String eref ) throws XMLStreamException
    {
        if ( eref == null || !eref.startsWith ( "#x" ) ) {
            super.writeEntityRef ( eref );
            return;
        }
        String hex = eref.substring ( 2 );
        for ( char c: new char[] { '\r', '\n' } )
            if ( Integer.toHexString ( c ).equals ( hex ) ) {
                this.writeCharacters ( Character.toString ( c ) );
                return;
        }
        super.writeEntityRef ( eref );
    }
    

这相当于(除了一些开销)fix they've already filed对于这个问题,JDK8u192 应该可用(并且应该已经在 J​​DK 9/10 中)。

  1. 包装你的 XMLStreamWriter2使用上述过滤器,例如:

    FileOutputStream fout = new FileOutputStream ( "test.xml" );
    WstxOutputFactory wsof = (WstxOutputFactory) WstxOutputFactory.newInstance();
    XMLStreamWriter2 xmlOut = (XMLStreamWriter2) wsof.createXMLStreamWriter ( fout, CharsetNames.CS_UTF8 );
    xmlOut = new NewLineFixWriterFilter ( xmlOut );
    // Now write into xmlOut, directly or via JAXB
    

完整/生产代码是here .将相同的方法应用于类似的管道应该不难(一般来说,问题的发生是因为 com.sun.xml.internal.bind.v2.runtime.output.XMLStreamWriterOutput 转义了 \n\r 是错误的方式,所以诀窍是从上层劫持这种错误的编码。

关于java - 最新的 Open JDK 8 JAXB 库无法解码具有包含换行符的属性的对象,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48603942/

相关文章:

java - Ant - 任务和目标之间的区别

c# - 美化多个 XSD 文件

android - 在 Android 中扩充没有 XML 的 View

oracle - 如何在 Oracle 包中执行私有(private)过程?

oracle - oracle中的序列创建

java - 如何从 jhipster 应用程序发送电子邮件

java - 将 aws-java-sdk 添加到 pom 时,@JsonIgnore 不起作用。为什么?

java - 在 Eclipse 控制台查看远程 Tomcat 日志

Android:更改设备设置时的布局大小问题

Oracle 模糊搜索(带空格)