java - 如何只获取HTML页面的一部分?

标签 java html web-scraping html-table apache-httpclient-4.x

挑选出我通过 HttpClient4 从 Apache 和 Java 发出的请求获得的 Html 页面的一部分的最佳方法是什么?具体来说,我需要一个表格(它的内容)。
解释、示例或链接会很棒。

最佳答案

您可以做的是从响应中创建一个 DOM 对象,因为它应该是一个有效的文档。

做类似的事情

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
Document document = builder.parse(/* your input stream from response */);
Element tableElement = document.getElementById("the-table-id");

关于java - 如何只获取HTML页面的一部分?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6035109/

相关文章:

javascript - 网页抓取基础知识

java - 在windows上使用java查找GPU规范

java - 从文本框传递参数

java - 在 Android Studio 中使用 Gradle 构建变体

jquery - 当使用 .html 获取 jQuery 内容时,该内容会丢失 jQuery 功能。

json - 如何使用querySelector进行网络抓取并在Flutter中的“文本”小部件中显示信息?

java - Android 获取序列化()

javascript - 下载 PDF 格式的 PHP、HTML 编码页面。

html - 如何设置输入标签的宽度100%

python - 来自 Google Finance 的网络抓取 : returned data list always empty