java - java读取动态网页内容

标签 java javascript jquery webharvest

我在阅读网页内容时需要帮助。目前我正在使用以下方法阅读内容

BufferedReader in = new BufferedReader(new InputStreamReader(page.openStream())); 
String inputLine;
while ((inputLine = in.readLine()) != null)
{Content = Content + inputLine;}

但是这种方法有一个问题。 .一些 jsp 页面中有 ajax,它随机更新网页的 css 类,就像这样 Javascript 代码只是为了提供一个想法:

if (request.readyState === 4 && request.status === 200) 
{
var type = request.getResponseHeader("Content-Type");
$('.update').empty();
$('.update').append(request.responseText); //update the css class
}

因此,当通过我上面提到的 java 方法读取此页面阅读器时,我得到

<div class="update"></div>

虽然在屏幕上这个类是有值的。 但是现在,如果我先保存页面(通过在 Firefox 中单击另存为),那么 jquery 附加在 CSS 类中的值也是可见的。 有没有一种方法或方式可以让我读取值或像 firefox 那样通过保存页面获取值。我想读取整个网页的内容,其中包含字符串中的 Ajax 值。

一方面,我读到这很困难,因为 JAvascript 由浏览器呈现和执行,所以我想知道 firefox 是否有任何可能有用的 api?如有任何建议,我们将不胜感激。

最佳答案

您可能会发现以下项目很有用:

这里还有一个very informative blog post来自数据大爆炸。

关于java - java读取动态网页内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10074466/

相关文章:

java - j2objc/usr/local/lib//libprotobuf.a(strutil.o) ld : 55 duplicate symbols for architecture x86_64

javascript - 在 IE9 中未检测到 View 模型函数绑定(bind),但在 FF 和 Chrome 中有效

javascript - 将 jQuery 中的变量插入 JSON 模式标记

javascript - 防止 body 标签在模态打开时滚动

jquery - 使用 jquery 提交的浏览器

java - android studio 中带有 setImageDrawable 方法的 NullPointerException

java - httpservletrequest getCookies() 或 getHeader()

javascript - 事件触发后获取 jquery 元素的索引

javascript - jQuery 动画有问题

java - Embeddable 和 EmbeddedId 之间的 JPA 映射 @ManyToOne