javascript - 抓取动态页面内容 phantomjs

标签 javascript html web-scraping phantomjs

我公司正在使用一个网站来托管我们所有的常见问题解答和客户问题。我们计划彻底清除所有旧数据并输入新数据,并且该服务没有备份,也没有针对我们不想再出现的问题的存档选项。

我已经完成并尝试使用 perl 和 mechanize 对站点进行 scape,但是我在页面上遗漏了客户评论,因为它们是通过 ajax 加载的。我看过 phantomjs,可以使用示例页面将页面保存到图像,但是,我想获取页面的整页 html 转储,但不知道如何操作。我在我们的网站上使用了这个示例代码

var page = new WebPage();

page.open('http://espn.go.com/nfl/', function (status) {
//once page loaded, include jQuery from cdn
page.includeJs("http://ajax.googleapis.com/ajax/libs/jquery/1.6.1/jquery.min.js", function() {
//once jQuery loaded, run some code
//inserts our custom text into the page
page.evaluate(function(){$("h2").html('Many NFL Players Scared that Chad Moon Will Enter League');});
//take screenshot and exit
page.render('espn.png');
phantom.exit();

});

});

有没有一种方法可以使用 phantomjs 获取整页数据转储,类似于我在 chrome 中查看源代码?我可以用 perl + mechanize 做到这一点,但不知道如何使用 phantomjs 做到这一点。

最佳答案

您可以使用 page.content 获取完整的 HTML DOM

关于javascript - 抓取动态页面内容 phantomjs,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13805215/

相关文章:

Javascript/jQuery 两个日期选择器计算日期范围

javascript - 在 D3 树中,如何以编程方式关闭选定深度的所有节点(例如仅孙子节点)(无需单击节点)

python - 无法使用beautifulsoup提取表数据

html - CSS 显示 flex 不工作

html - 修改颜色后不再出现 Bootstrap 汉堡包

python - 使用 Scrapy 和 Python 2.7 递归抓取 Craigslist

python - 将 Beautiful Soup 表抓取结果导出到 CSV

javascript - 如何访问作为复杂对象返回的 AngularJS 数据 (Pubnub)

javascript - 添加新行,jQuery 代码不起作用

javascript - 即使手动 URL 有效,网站也无法识别 GET