java - 如何防止 javax.xml.transform.Transformer 转换/解析 HTML 编码的字符

我正在使用 javax.xml.transform.Transformer 获取 HTML 内容并解析为 XML 文档(我正在使用 Crouton/TagSoup 组合来执行此操作)。不过，我认为这不是太重要，因为这是我的问题:

我正在转储 Transformer.transform() 过程的输出，并在输出中看到，© 之类的内容正在转换为它们的实际符号，在本例中为版权符号。

最终，此内容将重新保存为 HTML 文件，但不是让 © 出现在文件中，而是放置这个特殊字符，给定 HTML 标准，它不应该被使用。

有没有办法让转换器忽略已经编码的 HTML 字符，使其不被转换成它们的实际符号？

最佳答案

您可以尝试以下操作:调用 transformer.setOutputProperty(OutputKeys.ENCODING, "ASCII")。这样，所有非ASCII字符都必须使用字符实体。

关于java - 如何防止 javax.xml.transform.Transformer 转换/解析 HTML 编码的字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10522456/