我想知道保存 Selenium 访问站点时检索到的所有文件的最佳方法是什么。换句话说,当Selenium访问http://www.google.com时我想保存 HTML、JavaScript(包括 src 标记中引用的脚本)、图像以及 iframe 中包含的潜在内容。如何才能做到这一点?
我知道 getHTMLSource() 将返回主框架正文中的 HTML 内容,但是如何对其进行扩展以下载再次呈现该页面所需的完整文件集。 提前致谢!
最佳答案
Selenium 不是为此设计的,您可以:
- 使用
getHtmlSource
并解析生成的 HTML 以获取对外部文件的引用,然后您可以在 Selenium 外部下载和存储这些文件。 - 使用 Selenium 以外的工具来下载和存储网站的离线版本 - 我确信如果您进行搜索,有很多工具可以做到这一点。例如,WGet 可以执行递归下载 ( http://en.wikipedia.org/wiki/Wget#Recursive_download )
您有什么理由想使用 Selenium 吗?这是您测试策略的一部分,还是您只是想找到一个可以创建页面离线副本的工具?
关于selenium - 使用 Selenium 保存整页内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3049632/