我正在使用 selenium 在门户网站上收集数据。这里的问题是数据是 XML 格式,但 URL 扩展名不是 .xml,并且显示为 .aspx,因为它是一个 .aspx 网站。现在使用selenium 我可以使用 driver.getPageSource()
但它给了我 HTML 格式。在这里使用 HTML 分离 XML 确实很痛苦,我尝试了很多选项,例如 JSoup,但似乎需要完成太多解析。
有没有其他方法可以让selenium操纵浏览器。我可以看到文件另存为给了我一个以xml格式保存网页的选项。如何在selenium中执行此操作?是否有其他API可以帮帮我吧。
编辑:我的浏览器是 Internet Explorer
最佳答案
你试过这样吗?
String pageSource=driver.findElement(By.tagName("body")).getText();
查看此pageSource内容 如果它仅提供 XML 内容,您可以使用文件操作将其写入文件。
关于java - 使用selenium保存页面内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15570598/