selenium - 使用 Selenium 保存整页内容

标签 selenium

我想知道保存 Selenium 访问站点时检索到的所有文件的最佳方法是什么。换句话说,当Selenium访问http://www.google.com时我想保存 HTML、JavaScript(包括 src 标记中引用的脚本)、图像以及 iframe 中包含的潜在内容。如何才能做到这一点?

我知道 getHTMLSource() 将返回主框架正文中的 HTML 内容,但是如何对其进行扩展以下载再次呈现该页面所需的完整文件集。 提前致谢!

最佳答案

Selenium 不是为此设计的,您可以:

  1. 使用 getHtmlSource 并解析生成的 HTML 以获取对外部文件的引用,然后您可以在 Selenium 外部下载和存储这些文件。
  2. 使用 Selenium 以外的工具来下载和存储网站的离线版本 - 我确信如果您进行搜索,有很多工具可以做到这一点。例如,WGet 可以执行递归下载 ( http://en.wikipedia.org/wiki/Wget#Recursive_download )

您有什么理由想使用 Selenium 吗?这是您测试策略的一部分,还是您只是想找到一个可以创建页面离线副本的工具?

关于selenium - 使用 Selenium 保存整页内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3049632/

相关文章:

java - 单击提交按钮时,用户不会导航到 Selenium Webdriver 中的下一页

javascript - 通过 selenium javascriptExecutor 访问影子 DOM 元素( polymer )

java - Selenium Select 不适用于 <select> 元素

python - 将 Web Scraping 的结果存储到数据库中

java - 使用 selenium webdriver 下载图像

javascript - Selenium + Node.js : is it possible to listen for reoccurring events?

java - Selenium 在属性文件或 Excel 表中保留 xpath 的最佳方法是什么

selenium - Selenium IDE 是否已弃用?

testing - Selenium IDE - 表中多个条目中的验证文本(动态创建的 ID)

java - 使用 Ant 运行 JUnit 批处理文件时出现 "Unable to write log file"错误