我公司正在使用一个网站来托管我们所有的常见问题解答和客户问题。我们计划彻底清除所有旧数据并输入新数据,并且该服务没有备份,也没有针对我们不想再出现的问题的存档选项。
我已经完成并尝试使用 perl 和 mechanize 对站点进行 scape,但是我在页面上遗漏了客户评论,因为它们是通过 ajax 加载的。我看过 phantomjs,可以使用示例页面将页面保存到图像,但是,我想获取页面的整页 html 转储,但不知道如何操作。我在我们的网站上使用了这个示例代码
var page = new WebPage();
page.open('http://espn.go.com/nfl/', function (status) {
//once page loaded, include jQuery from cdn
page.includeJs("http://ajax.googleapis.com/ajax/libs/jquery/1.6.1/jquery.min.js", function() {
//once jQuery loaded, run some code
//inserts our custom text into the page
page.evaluate(function(){$("h2").html('Many NFL Players Scared that Chad Moon Will Enter League');});
//take screenshot and exit
page.render('espn.png');
phantom.exit();
});
});
有没有一种方法可以使用 phantomjs 获取整页数据转储,类似于我在 chrome 中查看源代码?我可以用 perl + mechanize 做到这一点,但不知道如何使用 phantomjs 做到这一点。
最佳答案
您可以使用 page.content
获取完整的 HTML DOM
关于javascript - 抓取动态页面内容 phantomjs,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13805215/