java - 将文档类型插入 XML 文档 (Java/SAX)

标签 java xml sax

假设您有一个 XML 文档并假设您有 DTD 但文档本身实际上并未指定 DOCTYPE ...您将如何插入 DOCTYPE 声明,最好是通过在解析器上指定它(类似于如何为将被解析的文档设置模式)或通过 XMLFilter 等插入必要的 SAX 事件?

我发现很多对 EntityResolver 的引用,但这是在解析过程中找到 DOCTYPE 时调用的内容,它用于指向到本地 DTD 文件。 EntityResolver2 似乎有我要找的东西,但我还没有找到任何使用示例。

这是迄今为止我最接近的代码:(代码是 Groovy,但足够接近,您应该能够理解它...)

import org.xml.sax.*
import org.xml.sax.ext.*
import org.xml.sax.helpers.*

class XmlFilter extends XMLFilterImpl {
    public XmlFilter( XMLReader reader ) { super(reader) }

    @Override public void startDocument() {
        super.startDocument()        
        super.resolveEntity( null, 
            'file:///./entity.dtd')
        println "filter startDocument"
    }
}

class MyHandler extends DefaultHandler2 { 
    public InputSource resolveEntity(String name, String publicId, String baseURI, String systemId) {
        println "entity: $name, $publicId, $baseURI, $systemId"
        return new InputSource(new StringReader('<!ENTITY asdf "&#161;">'))
    }
}

def handler = new MyHandler()

def parser = XMLReaderFactory.createXMLReader()
parser.setFeature 'http://xml.org/sax/features/use-entity-resolver2', true
def filter = new XmlFilter( parser )
filter.setContentHandler( handler )
filter.setEntityResolver( handler )

filter.parse( new InputSource(new StringReader('''<?xml version="1.0" ?>
    <test>one &asdf; two! &nbsp; &iexcl;&pound;&cent;</test>''')) );

我看到调用了 resolveEntity 但仍然命中

org.xml.sax.SAXParseException: The entity "asdf" was referenced, but not declared.
at com.sun.org.apache.xerces.internal.parsers.AbstractSAXParser.parse(AbstractSAXParser.java:1231)
at org.xml.sax.helpers.XMLFilterImpl.parse(XMLFilterImpl.java:333)

我想这是因为没有办法添加 解析器 知道的 SAX 事件,我只能通过解析器上游的过滤器添加事件,然后传递给 ContentHandler。因此进入 XMLReader 的文档必须是有效的。有办法解决这个问题吗?我知道我可以修改原始流以添加文档类型或可能进行转换以设置 DTD...还有其他选择吗?

最佳答案

你可以试试DoctypeChanger按照您的建议修改原始流:

DoctypeChanger is a Java class that lets you add, modify or remove a DOCTYPE declaration from a byte stream as it is fed into an XML parser.

InputStream in = ...   // get your XML InputStream
DOCTYPEChangerStream changer = new DOCTYPEChangerStream(in);
changer.setGenerator( 
    new DoctypeGenerator() {
        public Doctype generate(Doctype old) {
            return new DoctypeImpl("rootElement", "pubId", "sysId", "internalSubset");
        }
    } 
);
// .. and pass it on to the parser.

关于java - 将文档类型插入 XML 文档 (Java/SAX),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2641775/

相关文章:

c# - C# 中 XML 元素的元素/属性注释

Android SAX 解析器没有从标签之间获取全文

xml - 用于手势识别的 Haar 训练数据集 - 计数

java - 有关在 Play 2.2.1 上安装 Deadbolt 的问题

java double 计算

java - RabbitTemplate 扩展 DirectReplyToMessageListenerContainer

javascript - Facebook 的 React JSX 转换器如何工作?

java - 关闭 SAX 解析器在解析过程中正在读取的流的最佳方法是什么?

c++ - 对大文件有效的轻量级 XML 解析器?

java - 不幸的是,[Beacon Project name] 已经停止