是否有可能以及可以使用什么工具将 html 文档解析为字符串或从文件中解析,然后构建 DOM 树,以便开发人员可以通过一些 API 遍历树。
例如:
DomRoot = parse("myhtml.html");
for (tags : DomRoot) {
}
注意:这是一个 HTML 文档,不是 XHtml。
最佳答案
您可以使用 TagSoup - 它是一个 SAX 兼容的解析器,可以将格式错误的内容(例如 HTML)从通用网页中清除为格式正确的 XML。
This is <B>bold, <I>bold italic, </b>italic, </i>normal text
gets correctly rewritten as:
This is <b>bold, <i>bold italic, </i></b><i>italic, </i>normal text.
关于java - 可以解析 HTML 文档并构建 DOM 树(java),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1433250/