我正在使用 javax.xml.transform.Transformer 获取 HTML 内容并解析为 XML 文档(我正在使用 Crouton/TagSoup 组合来执行此操作)。不过,我认为这不是太重要,因为这是我的问题:
我正在转储 Transformer.transform() 过程的输出,并在输出中看到,©
之类的内容正在转换为它们的实际符号,在本例中为版权符号。
最终,此内容将重新保存为 HTML 文件,但不是让 ©
出现在文件中,而是放置这个特殊字符,给定 HTML 标准,它不应该被使用。
有没有办法让转换器忽略已经编码的 HTML 字符,使其不被转换成它们的实际符号?
最佳答案
您可以尝试以下操作:调用 transformer.setOutputProperty(OutputKeys.ENCODING, "ASCII")
。这样,所有非ASCII字符都必须使用字符实体。
关于java - 如何防止 javax.xml.transform.Transformer 转换/解析 HTML 编码的字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10522456/