java - 可以解析 HTML 文档并构建 DOM 树(java)

标签 java html dom parsing html-content-extraction

是否有可能以及可以使用什么工具将 html 文档解析为字符串或从文件中解析,然后构建 DOM 树,以便开发人员可以通过一些 API 遍历树。

例如:

DomRoot = parse("myhtml.html");

for (tags : DomRoot) {
}

注意:这是一个 HTML 文档,不是 XHtml。

最佳答案

您可以使用 TagSoup - 它是一个 SAX 兼容的解析器,可以将格式错误的内容(例如 HTML)从通用网页中清除为格式正确的 XML。

This is <B>bold, <I>bold italic, </b>italic, </i>normal text

gets correctly rewritten as:

This is <b>bold, <i>bold italic, </i></b><i>italic, </i>normal text.

关于java - 可以解析 HTML 文档并构建 DOM 树(java),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1433250/

相关文章:

javascript - 如何以 100% 页面宽度打印 Canvas 图像?

java DOM xml文件创建 - 输出文件中没有制表符或空格

javascript - 通过 JavaScript 检测文档中的希伯来语单词

java - 导出自己的 .jar 文件并将其导入到另一个项目中

html - 在文本下方居中一条小线

html - 根据窗口宽度自动调整 div 高度

jquery - jQuery 包装集中元素的顺序是否始终与元素在标记中出现的顺序匹配?

java - 为什么不运行方法调用?

java - 错误代码[17041];索引::1 处缺少 IN 或 OUT 参数;嵌套异常是 java.sql.SQLException: 在索引::1 处缺少 IN 或 OUT 参数

java - 手动拉动 spring bean 的最佳方法?