我需要从 Google 搜索结果中抓取一些仅在浏览器中显示的内容(我怀疑是在启用 Javascript 的情况下),特别是他们的知识图谱“人们也搜索”内容。
我使用 request
的组合和cheerio
刮并已经设法强制加载 .com
的结果但是,知识库框不会出现在 body
中我的结果,可能是因为它是 javascript 生成的内容。
有人知道我是否可以添加一个设置或可以使用另一个库吗?
下面是我的代码。谢谢!
var request = require('request');
var cheerio = require("cheerio");
request = request.defaults({jar: true});
var options = {
url: 'http://www.google.com/ncr',
headers: {
'User-Agent': 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; rv:1.9.2.16) Gecko/20110319 Firefox/3.6.16'
}
};
request(options, function () {
request('https://www.google.com/search?gws_rd=ssl&site=&source=hp&q=google&oq=google', function (error, response, body) {
var $ = cheerio.load(body);
$("li").each(function() {
var link = $(this);
var text = link.text();
console.log(text);
});
});
});
最佳答案
您不能使用 Node 的请求,因为您只是下载静态内容。为了渲染 JavaScript,您必须使用浏览器。幸运的是,有专门用于此目的的 headless 浏览器。我建议PhantomJS .
关于javascript - 使用 Node.Js 中的请求抓取 javascript 生成的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27736747/