java - 如何只获取HTML页面的一部分？

标签 java html web-scraping html-table apache-httpclient-4.x

挑选出我通过 HttpClient4 从 Apache 和 Java 发出的请求获得的 Html 页面的一部分的最佳方法是什么？具体来说，我需要一个表格(它的内容)。
解释、示例或链接会很棒。

最佳答案

您可以做的是从响应中创建一个 DOM 对象，因为它应该是一个有效的文档。

做类似的事情

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
Document document = builder.parse(/* your input stream from response */);
Element tableElement = document.getElementById("the-table-id");

关于java - 如何只获取HTML页面的一部分？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6035109/

上一篇：java - 当 session 被终止时，如何从数据库中删除 session 相关信息？

下一篇：java - 如何将动态类数组传递给可变参数？

相关文章：

javascript - 网页抓取基础知识

java - 在windows上使用java查找GPU规范

java - 从文本框传递参数

java - 在 Android Studio 中使用 Gradle 构建变体

jquery - 当使用 .html 获取 jQuery 内容时，该内容会丢失 jQuery 功能。

json - 如何使用querySelector进行网络抓取并在Flutter中的“文本”小部件中显示信息？

java - Android 获取序列化()

javascript - 下载 PDF 格式的 PHP、HTML 编码页面。

html - 如何设置输入标签的宽度100%

python - 来自 Google Finance 的网络抓取 : returned data list always empty