java - 使用selenium保存页面内容

标签 java selenium

我正在使用 selenium 在门户网站上收集数据。这里的问题是数据是 XML 格式,但 URL 扩展名不是 .xml,并且显示为 .aspx,因为它是一个 .aspx 网站。现在使用selenium 我可以使用 driver.getPageSource()

获取页面源

但它给了我 HTML 格式。在这里使用 HTML 分离 XML 确实很痛苦,我尝试了很多选项,例如 JSoup,但似乎需要完成太多解析。

有没有其他方法可以让selenium操纵浏览器。我可以看到文件另存为给了我一个以xml格式保存网页的选项。如何在selenium中执行此操作?是否有其他API可以帮帮我吧。

编辑:我的浏览器是 Internet Explorer

最佳答案

你试过这样吗?

String pageSource=driver.findElement(By.tagName("body")).getText();

查看此pageSource内容 如果它仅提供 XML 内容,您可以使用文件操作将其写入文件。

关于java - 使用selenium保存页面内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15570598/

相关文章:

java - 如何通过 selenium webdriver 禁用 Skype 扩展

java - Selenium 单击 chrome 物理按钮,如菜单、左导航、右导航、书签

java - Maven - 如何使用注释从 src/test/java 内的不同包运行 2 个 java 文件

java - 如何根据对象属性知道 map 是否包含该对象

java - 与 linkedin v2 api 的图像共享不在页面提要上发布

java - 使用 `where values in list`的Grails GORM 3.2.0查询

java - EJB 是 Java 中的 ADO.NET 等价物吗?

python - 在等待时使用 Selenium 中的 Xpath 获取元素的第 n 次出现

java - 我可以从 PostgreSQL(在 Heroku 中)中的触发器调用 java 类/方法吗?

python - Javascript 未加载 Selenium 测试