java - 使用 Java 提取 HTML 标签

我想从网页的源代码中提取可用的各种 HTML 标记，Java 中是否有任何方法可以做到这一点，或者 HTML 解析器是否支持这一点？

我想把所有的 HTML 标签分开。

最佳答案

Java 带有一个 XML 解析器，其方法与 JavaScript 中的 DOM 类似:

DocumentBuilder builder = DocumentBuilderFactory.newDocumentBuilder();
Document doc = builder.parse(html);
doc.getElementById("someId");
doc.getElementsByTagName("div");
doc.getChildNodes();

文档生成器可以接受许多不同的输入(输入流、原始 html 字符串等)。

http://download.oracle.com/javase/1.5.0/docs/api/org/w3c/dom/Document.html

如果您需要更多，cyber neko 解析器也不错。

关于java - 使用 Java 提取 HTML 标签，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5375028/

上一篇：javascript - field 的谷歌地图地理编码器

下一篇：html - 打印特定的 HTML

相关文章：

java - 从 redshift 异步批量卸载

java - SQL语法错误异常 : ORA-00911: invalid character

java - 调试 JMock 期望

javascript - HTML/js 如何从多个不同的图像宽度设置多个 div 宽度？

iPhone 表单样式

java - Gephi 无法导入 Neo4j 数据

html - 如何在绝对容器底部放置粘性页脚

html - 使div透明但不透明内部图像

JavaScript - 带数组的 for 循环

java - 通过两个参数对 Java 列表进行排序？