我目前正在使用 SAX 来解析一些 HTML。 但是,我现在必须解析一个具有如下内容的文档:
`<OPTION VALUE="123" SELECTED>`
并且由于 SELECTED 没有设置实际值,因此它会抛出错误(格式不正确,标记无效)。有没有办法解决这个问题,以便我可以继续使用 SAX?
我的代码:
SAXParserFactory spf = SAXParserFactory.newInstance();
SAXParser sp = spf.newSAXParser();
XMLReader xr = sp.getXMLReader();
xr.setContentHandler(sch);
InputSource is = new InputSource(Statics.SUBJECT_CODE_URL);
xr.parse(is);
最佳答案
您不能使用 SAX 来解析 HTML。 HTML 不是 XML。完全有效的 HTML 文档不是有效的 XML 文档,您所做的任何事情都无法让 XML 解析器解析它。
关于java - SAX - 没有值的 HTML 属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16349768/