javascript - 在尝试抓取 React 网站时获取 index.html 内容

标签 javascript node.js reactjs web-scraping

当我尝试使用nodejs抓取reactjs网站时,我只获取index.html文件的内容,而不是网站中使用的标签。 这是我尝试过的 -

    const request = require("request");
    const cheerio = require("cheerio");

    const URL = "https://pydata-jal.netlify.com/";

    request(URL, (err, res, body) => {
      if (!err && res.statusCode == 200) {
        const $ = cheerio.load(body);
        console.log($.html());
      }
    });

我应该如何获取 React 网站中使用的全部标签。

请告诉我可以抓取 hackernoon 网站吗? (仅举个例子) 是否合法?

最佳答案

Cheerio 仅解析已渲染的 HTML(例如:静态 HTML) 为了获得 React 渲染,您应该依赖使用 Puppeteer 等工具控制的 headless 浏览器。

关于javascript - 在尝试抓取 React 网站时获取 index.html 内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57311590/

相关文章:

javascript - 鼠标拉起滚动条调整 `scrollTop`后如何防止触发滚动事件?

Javascript 伪类、jQuery 事件处理程序和 'this'

node.js - 存储上的 Firebase 函数是否存在通配符?

javascript - ReactJS - 图像未显示在 Material 表的自定义列中

javascript - 将 json 对象返回给渲染方法 - React.js

css - 我如何使用 window.scrollby 进行 react ?

javascript - 我如何排序考虑大于和小于?

javascript - 数据加载的 Angular 指令模板更新

node.js - 使用 Chromeless 和 Puppeteer 或 Selenium 有什么好处?

javascript - Node.js 在 for 循环中写入文件