javascript - 在尝试抓取 React 网站时获取 index.html 内容

标签 javascript node.js reactjs web-scraping

当我尝试使用nodejs抓取reactjs网站时，我只获取index.html文件的内容，而不是网站中使用的标签。这是我尝试过的 -

    const request = require("request");
    const cheerio = require("cheerio");

    const URL = "https://pydata-jal.netlify.com/";

    request(URL, (err, res, body) => {
      if (!err && res.statusCode == 200) {
        const $ = cheerio.load(body);
        console.log($.html());
      }
    });

我应该如何获取 React 网站中使用的全部标签。

请告诉我可以抓取 hackernoon 网站吗？ (仅举个例子) 是否合法？

最佳答案

Cheerio 仅解析已渲染的 HTML(例如:静态 HTML) 为了获得 React 渲染，您应该依赖使用 Puppeteer 等工具控制的 headless 浏览器。

关于javascript - 在尝试抓取 React 网站时获取 index.html 内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57311590/

上一篇：node.js - 是否可以在 Firebase 托管的 Web 应用程序上安装 powershell？

下一篇：node.js - 类型错误 : fsevents is not a constructor (already tried a bunch of answers)

Javascript 伪类、jQuery 事件处理程序和 'this'

node.js - 存储上的 Firebase 函数是否存在通配符？

javascript - ReactJS - 图像未显示在 Material 表的自定义列中

javascript - 将 json 对象返回给渲染方法 - React.js

css - 我如何使用 window.scrollby 进行 react ？

javascript - 我如何排序考虑大于和小于？

javascript - 数据加载的 Angular 指令模板更新

node.js - 使用 Chromeless 和 Puppeteer 或 Selenium 有什么好处？

javascript - Node.js 在 for 循环中写入文件