javascript - 获取 HtmlUnit HtmlElement 中的原始 HTML?

标签 javascript htmlunit

我正在使用 HtmlUnit 从网站读取内容。

一切都很完美,我正在阅读内容:

  HtmlDivision div = page.getHtmlElementById("my-id");

偶数div.asText()返回预期的 String 对象,但我想获取 <div>...</div> 内的原始 HTML作为字符串对象。我怎样才能做到这一点?

我不愿意改变HtlmUnit到其他东西,因为网站期望客户端运行 JavaScript,并且 HtmlUnit似乎有能力完成所需的工作。

最佳答案

如果原始 HTML 指的是 HTMLUnit 已经格式化的 HTML 代码,那么您可以使用 div.asXml()。现在,如果您确实正在寻找服务器发送给您的原始 HTML,那么您将找不到方法(至少在 v2.14 之前)。

现在,作为解决方法,您可以获得服务器发送给您的页面的完整文本以及以下答案: How to get the pure raw HTML of a page in HTMLUnit while ignoring JavaScript and CSS?

顺便说一句,您可能应该三思而行为什么需要 HTML 代码。 HTMLUnit 将允许您从代码中获取数据,因此不需要存储源代码,而是存储其中包含的信息。只是我的 2 美分。

关于javascript - 获取 HtmlUnit HtmlElement 中的原始 HTML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23518671/

相关文章:

java - 关闭 HtmlUnit 的 log4j 记录器

android - android 的 html 单元

javascript - 打印前先打开 HTML

javascript - 使用 TypeScript 的延迟 javascript/jQuery 搜索不等待

javascript - 如何使用 fetch 测试 api 调用

java - 使用 HTMLUnit 通过 Java 进行网页抓取

Java - 从 OneDrive 公共(public)文件夹下载

javascript - HTML&Javascript音频播放和停止按钮

Ajax 网站中的 Javascript 插件

java - 点击后 Htmlunit 不重定向