java - 获取页面的完整 html 源代码以制作网络爬虫

标签 java web-crawler jsoup

我正在尝试用java制作一个网络爬虫，它获取网页的URL并导航到给定网页源代码中存在的其他页面。问题是，我在 jsoup 的帮助下获取了 HTML 源代码，其中包含各种标签，如框架和一些 javascript 文件名。现在要导航到其他页面，我需要访问框架和 JavaScript 文件中给出的 http 链接。我应该如何在列表中获取这些链接。

最佳答案

您需要递归地执行此操作...在 DOM 对象中找到一个框架标签/元素，是时候获取其“src”属性的 DOM 了，继续执行此操作，将您在后续获取中找到的所有链接存储到大批。
您可以使用新线程来获取帧 DOM。只是为了让整个过程更快一点。

关于java - 获取页面的完整 html 源代码以制作网络爬虫，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33123674/

上一篇：java - 用Java绘制一个简单的GWT柱形图

下一篇：JAVA DOM XML 解析

java - 使用 JSoup 抓取 Google 天气结果

java - android-如何制作高质量的 4 色渐变？

php - 爬取页面时，如何从<a href>或<frame src>属性获取完整URL

java - C# 到 java 的交叉编译器有哪些限制和优点？

php - 用于捕捉机器人的算法

android - 如何忽略Jsoup中的子div标签

java - JSoup HTML 解析并按顺序将结果写入 CSV

java - 使用 PHP OpenSSL 将 Java AES/ECB/PKCS7Padding/代码转换为 PHP

java - JSch 从字符串中添加私钥