java - 如何防止 javax.xml.transform.Transformer 转换/解析 HTML 编码的字符

标签 java xml xslt coldfusion

我正在使用 javax.xml.transform.Transformer 获取 HTML 内容并解析为 XML 文档(我正在使用 Crouton/TagSoup 组合来执行此操作)。不过,我认为这不是太重要,因为这是我的问题:

我正在转储 Transformer.transform() 过程的输出,并在输出中看到,© 之类的内容正在转换为它们的实际符号,在本例中为版权符号。

最终,此内容将重新保存为 HTML 文件,但不是让 © 出现在文件中,而是放置这个特殊字符,给定 HTML 标准,它不应该被使用。

有没有办法让转换器忽略已经编码的 HTML 字符,使其不被转换成它们的实际符号?

最佳答案

您可以尝试以下操作:调用 transformer.setOutputProperty(OutputKeys.ENCODING, "ASCII")。这样,所有非ASCII字符都必须使用字符实体。

关于java - 如何防止 javax.xml.transform.Transformer 转换/解析 HTML 编码的字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10522456/

相关文章:

java - 在 Jython 中访问 Java 类的成员时出现 AttributeError

java - 在 JPA 2.0 中维护关系

javascript - 如何在 javascript 中解析 XML 文件。大文件可能使用SAX?

html - 将 XML 转换为 HTML(相对于 xhtml)

ruby - 如何使用 Ruby 选择唯一的 XML 节点?

JavaFx 将子节点添加到自定义节点

java - Codingbat 练习 BMI 结果

android - 包含来自另一个包的 xml 布局

XML 属性与 XML 元素

XML 合并节点