我在 Ubuntu 16.04 上使用 Java。最近我升级到使用 oracle-java8-installer 包安装的 Open JDK java 版本“1.8.0_161”(包版本 8u161-1~webupd8~0)。自从进行此升级后,我在对 Java 对象进行 JAXB 编码时遇到了新的异常。
具体来说,当尝试使用 JAXB 将 Java 对象编码为 XML 时,如果 Java 对象具有包含任何换行符(“\n”)字符的 String 属性并且该 String 属性被序列化为元素,我会得到以下异常XML 中的内容。 (顺便说一句,如果将 String 属性序列化为属性内容,则 String 值中的任何换行符都将转换为空格字符,并且不会触发异常。)
似乎正在发生的事情是
com.sun.xml.internal.bind.v2.runtime.output.XMLStreamWriterOutput$NewLineEscapeHandler.escape
将 Java 对象的 String 属性中的换行符转换为实体引用
。然后将此实体引用写出到 XML 输出流,但在验证实体引用名称时,会抛出异常,因为 #xa 未被识别为有效的实体引用名称。
这是预期的行为吗?如果是这样,我应该怎么做才能在 Java 对象的序列化中保留换行符?如果没有,我应该怎么做才能解决这个问题?
堆栈跟踪的相关部分是:
... Caused by: javax.xml.stream.XMLStreamException: Invalid name start character '#' (code 35) (name "#xa")
at com.fasterxml.aalto.out.XmlWriter.throwOutputError(XmlWriter.java:472)
at com.fasterxml.aalto.out.XmlWriter.reportNwfName(XmlWriter.java:383)
at com.fasterxml.aalto.out.ByteXmlWriter.verifyNameComponent(ByteXmlWriter.java:235)
at com.fasterxml.aalto.out.ByteXmlWriter.constructName(ByteXmlWriter.java:181)
at com.fasterxml.aalto.out.WNameTable.findSymbol(WNameTable.java:324)
at com.fasterxml.aalto.out.StreamWriterBase.writeEntityRef(StreamWriterBase.java:615)
at net.galexy.fieldguide.jaxb.CustomXMLStreamWriter.writeEntityRef(CustomXMLStreamWriter.java:198)
at com.sun.xml.internal.bind.v2.runtime.output.XMLStreamWriterOutput$XmlStreamOutWriterAdapter.writeEntityRef(XMLStreamWriterOutput.java:277)
at com.sun.xml.internal.bind.v2.runtime.output.XMLStreamWriterOutput$NewLineEscapeHandler.escape(XMLStreamWriterOutput.java:242)
... 60 more
例如,如果我解码以下 XML:
<?xml version='1.0' encoding='UTF-8'?>
<description>
<note>The text of the note</note>
</description>
然后尝试将其编码回 XML,然后不会抛出异常。
但是,如果在笔记内容中间换行:
<?xml version='1.0' encoding='UTF-8'?>
<description>
<note>The text of
the note</note>
</description>
然后抛出异常。
正在使用的 JAXB 上下文是 com.sun.xml.internal.bind.v2.runtime.JAXBContextImpl
。
正在使用的 JAXB 编码器是 com.sun.xml.internal.bind.v2.runtime.MarshallerImpl
在寻找有关更改的更多信息时,我发现了以下错误报告,该报告表明其他人也遇到了与此版本的 JAXB 相同的更改:
JDK-8196491 Newlines in JAXB string values of SOAP-requests are escaped to "
"
this stack overflow question 的答案建议我可以通过让编码器使用 com.sun.xml.bind.marshaller.CharacterEscapeHandler
的自定义实现来恢复对字符转义的控制。
这让我感到困惑,因为 javax.xml.bind.Marshaller
似乎没有声明静态属性名称 com.sun.xml.bind.marshaller.CharacterEscapeHandler
而它确实声明了其他属性名称,例如 Marshaller.JAXB_FORMATTED_OUTPUT
,等于 "jaxb.formatted.output
。
即使我可以指示编码器使用我的自定义字符转义处理程序,我也不完全确定我应该在该转义处理程序中做什么。是否有一个合适的基本转义处理程序,我可以覆盖它以继承所有标准转义处理,以确保我进行干预以停止转义换行符?
我也试过 Oracle Java 9(包版本 9.0.4-1~webupd8~0),那个版本的 Java 也有同样的问题。
我还尝试了下一个版本的 Oracle Java 8 (1.8.0_162),那个版本也有同样的问题。
从 Oracle 网站 (1.8.0_152) 下载旧版本的 Java 可以解决问题,但不是解决问题的令人满意的方法。
最佳答案
在我的例子中,我使用 JAXB 通过 StAX/WoodStox 将一些对象转换为 XML 并将它们序列化为一个文件。我设法通过过滤正在序列化的 XML 来解决问题。详细来说,方法是这样的:
定义自定义
StreamWriter2Delegate
, 覆盖writeEntityRef()
,因此,当此方法接收到错误的实体代码(#xd
或#xa
)时,它会调用其委托(delegate)来实际写回原始字符(即\n
或\r
),实际上不需要转义:@Override public void writeEntityRef ( String eref ) throws XMLStreamException { if ( eref == null || !eref.startsWith ( "#x" ) ) { super.writeEntityRef ( eref ); return; } String hex = eref.substring ( 2 ); for ( char c: new char[] { '\r', '\n' } ) if ( Integer.toHexString ( c ).equals ( hex ) ) { this.writeCharacters ( Character.toString ( c ) ); return; } super.writeEntityRef ( eref ); }
这相当于(除了一些开销)fix they've already filed对于这个问题,JDK8u192 应该可用(并且应该已经在 JDK 9/10 中)。
包装你的
XMLStreamWriter2
使用上述过滤器,例如:FileOutputStream fout = new FileOutputStream ( "test.xml" ); WstxOutputFactory wsof = (WstxOutputFactory) WstxOutputFactory.newInstance(); XMLStreamWriter2 xmlOut = (XMLStreamWriter2) wsof.createXMLStreamWriter ( fout, CharsetNames.CS_UTF8 ); xmlOut = new NewLineFixWriterFilter ( xmlOut ); // Now write into xmlOut, directly or via JAXB
完整/生产代码是here .将相同的方法应用于类似的管道应该不难(一般来说,问题的发生是因为 com.sun.xml.internal.bind.v2.runtime.output.XMLStreamWriterOutput
转义了 \n
和 \r
是错误的方式,所以诀窍是从上层劫持这种错误的编码。
关于java - 最新的 Open JDK 8 JAXB 库无法解码具有包含换行符的属性的对象,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48603942/