java - 为什么 org.w3c.dom.DocumentBuilder 偷偷地自己给 XML 元素添加属性

标签 java xml dtd

经过几天的困惑并尝试使用不同的库来验证带有 XSD 的 XML 文档(根据 XSD,我 100% 肯定是有效的),我终于发现了 失败的原因org.w3c.dom.DocumentBuilderorg.w3c.dom.Document 决定将一堆属性潜入 DOM。这是我收到的许多验证错误之一:

Value '127' of attribute 'high_value_range' of element 'API_Version' is not valid with respect to the corresponding attribute use. Attribute 'high_value_range' has a fixed value of '4294967295'.

如您在此示例 test.xml 文件中所见,我指定属性 'high_value_range':

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE My_Doc SYSTEM "MyDoc.dtd">
<My_Doc xmlns="http://my.namespace.org">
  <Package>
    <API_Version>1</API_Version>
  </Package>
</My_Doc>

下面是解析 XML 文件并打印 DOM 的代码:

package client;

import java.io.*;
import javax.xml.parsers.*;
import javax.xml.transform.*;
import javax.xml.transform.dom.*;
import javax.xml.transform.stream.*;
import org.w3c.*;
import org.w3c.dom.*;
import org.xml.sax.ErrorHandler;
import org.xml.sax.SAXException;
import org.xml.sax.SAXParseException;

public class Writer
{
    //method to convert Document to String
    public static String getStringFromDocument(Document doc)
    {
        try
        {
           DOMSource domSource = new DOMSource(doc);
           StringWriter writer = new StringWriter();
           StreamResult result = new StreamResult(writer);
           TransformerFactory tf = TransformerFactory.newInstance();
           javax.xml.transform.Transformer transformer = tf.newTransformer();
           transformer.transform(domSource, result);
           return writer.toString();
        }
        catch(TransformerException ex)
        {
           ex.printStackTrace();
           return null;
        }
    } 

    public static void main(String[] args) throws SAXException, IOException, ParserConfigurationException
    {
        DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();
        DocumentBuilder dBuilder = dbFactory.newDocumentBuilder();
        Document doc;
        doc = dBuilder.parse(new File("data/test.xml"));
        System.out.println(getStringFromDocument(doc));

    }
}

最后,打印出解析后的Document结果和后续验证失败的原因:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<My_Doc xmlns="http://my.namespace.org" element_tag="GROUP" element_type="GROUP">
  <Package>
    <API_Version element_type="FIELD" field_type="INTEGER" value_upper_range="127">1</API_Version>
  </Package>
</My_Doc>

这里是要重现的 MyDoc.dtd:

<?xml version='1.0' encoding='UTF-8' ?>
<?My_Application DTD_Version='6.5'?>
<!ELEMENT My_Doc (Package)>
<!ATTLIST My_Doc  element_tag  CDATA  #FIXED 'GROUP'
               element_type CDATA  #FIXED 'GROUP'
               xmlns        CDATA  #FIXED 'http://my.namespace.org' >

<!ELEMENT Package (API_Version)>

<!ELEMENT API_Version (#PCDATA)>
<!ATTLIST API_Version  element_type      CDATA  #FIXED 'FIELD'
                                    field_type        CDATA  #FIXED 'INTEGER'
                                    high_value_range CDATA  #FIXED '127' >
<?DTD_End Dummy_Processing_Instruction='END'?>

为什么 DocumentBuilder 添加所有这些额外的东西,我如何阻止它这样做?

最佳答案

当您在启用 DTD 验证的情况下解析文档时,DTD 中定义的默认属性值将插入到已解析的文档中。如果您不希望这种情况发生,那么要么不定义 DTD,要么禁止 DTD 验证,要么禁止扩展 DTD 定义的属性默认值。 (如果您使用的 TransformerFactory 是 Saxon 而不是 Xalan,我可以告诉您如何做到这一点)。

关于java - 为什么 org.w3c.dom.DocumentBuilder 偷偷地自己给 XML 元素添加属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38777919/

相关文章:

eclipse - 在 Eclipse 中禁用 Ant 脚本的 DTD 警告?

.net - 打开外部 DTD(w3.org、xhtml1-transitional.dtd)时发生错误。 503 服务器不可用

python - 如何使用本地DTD文件使用lxml解析XML文件?

java - 替换字符串末尾的感叹号

java - 窗口内容大小不受 Window min -height -width 影响

java - 使用 JDOM 查询 XML 文件?类似于 SQL 但使用 XML?

C# XML,查找节点及其所有父节点

java - 在 NetBeans 中进行调试而不改变焦点

java - 数组中的数据去哪儿了?

xml - XSLT 按名称对节点进行排序?