java - 使用 Java 提取 HTML 标签

标签 java html

我想从网页的源代码中提取可用的各种 HTML 标记,Java 中是否有任何方法可以做到这一点,或者 HTML 解析器是否支持这一点?

我想把所有的 HTML 标签分开。

最佳答案

Java 带有一个 XML 解析器,其方法与 JavaScript 中的 DOM 类似:

DocumentBuilder builder = DocumentBuilderFactory.newDocumentBuilder();
Document doc = builder.parse(html);
doc.getElementById("someId");
doc.getElementsByTagName("div");
doc.getChildNodes();

文档生成器可以接受许多不同的输入(输入流、原始 html 字符串等)。

http://download.oracle.com/javase/1.5.0/docs/api/org/w3c/dom/Document.html

如果您需要更多,cyber neko 解析器也不错。

关于java - 使用 Java 提取 HTML 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5375028/

相关文章:

java - 从 redshift 异步批量卸载

java - SQL语法错误异常 : ORA-00911: invalid character

java - 调试 JMock 期望

javascript - HTML/js 如何从多个不同的图像宽度设置多个 div 宽度?

iPhone 表单样式

java - Gephi 无法导入 Neo4j 数据

html - 如何在绝对容器底部放置粘性页脚

html - 使div透明但不透明内部图像

JavaScript - 带数组的 for 循环

java - 通过两个参数对 Java 列表进行排序?