当我尝试使用nodejs抓取reactjs网站时,我只获取index.html文件的内容,而不是网站中使用的标签。 这是我尝试过的 -
const request = require("request");
const cheerio = require("cheerio");
const URL = "https://pydata-jal.netlify.com/";
request(URL, (err, res, body) => {
if (!err && res.statusCode == 200) {
const $ = cheerio.load(body);
console.log($.html());
}
});
我应该如何获取 React 网站中使用的全部标签。
请告诉我可以抓取 hackernoon 网站吗? (仅举个例子) 是否合法?
最佳答案
Cheerio 仅解析已渲染的 HTML(例如:静态 HTML) 为了获得 React 渲染,您应该依赖使用 Puppeteer 等工具控制的 headless 浏览器。
关于javascript - 在尝试抓取 React 网站时获取 index.html 内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57311590/