java - 通过从 Java 8 到 Java 11 的 CDATA XML 转换处理换行符的变化

标签 java xml transformation sax java-11

Java 9 的方式发生了变化 javax.xml.transform.TransformerOutputKeys.INDENT处理 CDATA 标签。简而言之,在 Java 8 中,包含一些字符数据的名为“test”的标签将导致:

<test><![CDATA[data]]></test>

但在 Java 9 中结果相同

<test>
    <![CDATA[data]]>
</test>

这不是同一个 XML。

我了解到(来自不再可用的来源)对于 Java 9 有一个使用 DocumentBuilderFactory 的解决方法与 setIgnoringElementContentWhitespace=true但这不再适用于 Java 11。

有人知道在 Java 11 中处理这个问题的方法吗?我正在寻找一种方法来防止额外的换行符(但仍然能够格式化我的 XML),或者能够在解析 XML 时忽略它们(最好使用 SAX)。

不幸的是,我不知道 CDATA 标记在我的应用程序中实际包含什么。它可能以空格或换行符开头或结尾,因此我不能在读取 XML 或实际设置结果对象中的值时删除它们。

演示问题的示例程序:

public static void main(String[] args) throws TransformerException, ParserConfigurationException, IOException, SAXException
{
    String data = "data";

    StreamSource source = new StreamSource(new StringReader("<foo><bar><![CDATA[" + data + "]]></bar></foo>"));
    StreamResult result = new StreamResult(new StringWriter());

    Transformer tform = TransformerFactory.newInstance().newTransformer();
    tform.setOutputProperty(OutputKeys.INDENT, "yes");
    tform.transform(source, result);

    String xml = result.getWriter().toString();

    System.out.println(xml); // I expect bar and CDATA to be on same line. This is true for Java 8, false for Java 11


    Document document = DocumentBuilderFactory.newInstance()
        .newDocumentBuilder()
        .parse(new InputSource(new StringReader(xml)));

    String resultData = document.getElementsByTagName("bar")
        .item(0)
        .getTextContent();

    System.out.println(data.equals(resultData)); // True for Java 8, false for Java 11
}

编辑:为了将来引用,我已经向 Oracle 提交了错误报告,这在 Java 14 中已修复:https://bugs.java.com/bugdatabase/view_bug.do?bug_id=JDK-8223291

最佳答案

由于您的代码依赖于未指定的行为,因此额外的显式代码似乎更好:

  • 你想要像这样的缩进:

    tform.setOutputProperty(OutputKeys.INDENT, "yes");
    tform.setOutputProperty("{http://xml.apache.org/xslt}indent-amount", "4");
    
  • 但是不适用于包含 CDATA 的元素。

    String xml = result.getWriter().toString();
    // No indentation (whitespace) for elements with a CDATA section.
    xml = xml.replaceAll(">\\s*(<\\!\\[CDATA\\[.*?]]>)\\s*</", ">$1</");
    

正则表达式使用:

  • (?s) DOT_ALL 让 . 匹配任何字符,换行符。
  • .*?最短匹配序列,不匹配"...]]>...]]>".

或者:在 DOM 树(保留 CDATA)中,您可以检索每个 XPath 的所有 CDATA 部分,并使用父元素删除空白兄弟元素。

关于java - 通过从 Java 8 到 Java 11 的 CDATA XML 转换处理换行符的变化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55853220/

相关文章:

cocoa - 如何让OpenGL在Cocoa中显示NV12纹理

java - 用于替换查询参数中的值的正则表达式

java - 在awaitConfimation之后关闭Executor线程

java - 使用 Xstream 定义 XML 结构

java - 使用配置文件的正确方法是什么?

java - ShapeRenderer 转换干扰 LibGDX 中的网格转换

java - 验证码图像返回二进制数据?如何显示这个?

java - 使用glide将图片插入ArrayList

javascript - jQuery.ajax 给出 "TypeError: Cannot read property ' documentElement' of null"on server but not local

geometry - 弧变换起点终点到起点角度终点角度