Java XML 解析 : Avoid entity reference resolution

标签 java xml dom xml-parsing sax

我目前正在使用 DOM 解析器解析 XHTML 文档,例如:

final DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
dbf.setValidating(false);

final DocumentBuilder db = dbf.newDocumentBuilder();
db.setEntityResolver(MY_ENTITY_RESOLVER);
db.setErrorHandler(MY_ERROR_HANDLER);
...
final Document doc = db.parse(inputSource);

我的问题是,当我的文档包含实体引用时,例如:

<p>&euro;</p>

我的解析器为包含“€”而不是“€”的内容创建了一个文本节点。也就是说,它以预期的方式解析实体(XHTML 1.0 Strict DTD 链接到 ENTITIES Latin1 DTD,后者又建立了“€”与“€”的等价)。

问题是,我不希望解析器做这样的事情。 我想保留“€”文本未修改

我已经尝试过:

final DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
dbf.setExpandEntityReferences(false);

但是:

  1. 我不喜欢这样,因为我担心这可能会使某些解析器实现无法导航从 XHTML 1.0 Strict DTD 到 ENTITIES Latin1 DTD,因此不考虑“€”作为声明的实体。

  2. 当我这样做时,它奇怪地创建了两个节点:一个“井号”实体节点和一个后面带有“€”符号的文本节点。

有什么想法吗?是否可以在 DOM 解析器中配置它而不诉诸 预处理 XHTML 并将所有“&”符号替换为其他符号?...

解决方案可以用于 DOM 解析器或 SAX 解析器,我不介意使用 SAX 解析然后使用转换创建我的 DOM...

此外,我无法切换到非标准的 XML 解析库。没有 jdom,没有 jsoup,没有 HtmlCleaner 等。

非常感谢。

最佳答案

我采用的方法是用 Xerces 将其视为纯文本的唯一标记替换任何实体。转换为文档对象后,标记将替换为实体引用对象。

参见 http://sourceforge.net/p/commonclasses/code/14/tree/trunk/src/com/redhat/ecs/commonutils/XMLUtilities.java 中的 convertStringToDocument() 函数

关于Java XML 解析 : Avoid entity reference resolution,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7240857/

相关文章:

javascript - ReactDOM.render 是否在渲染之前等待文档加载?

javascript - 通过javascript函数显示隐藏部分

php - 需要帮助创建 Cron 来每天下载 XML 文件

java - J2ME (Java) - 在显示类中捕获空指针异常

java - Android Spinner 上的 IndexOutOfBoundException

java - 检索 jsoup 中元素的文本

.net - 更新 XmlValidatingReader 函数以使用 XMLReader?

c++ - 如何获取 JUnit 格式的 CMocka 报告?

javascript - angularjs:带有 ng-model 标签的输入在我输入之前不会出现在模型中

java - GlassFish 安全领域、Active Directory 和推荐