javascript - 如何使用 puppeteer 查找网页上的所有资源？

标签 javascript node.js express web-scraping puppeteer

我想使用 puppeteer 来搜索页面并返回所有可用资源，包括图像、pdf、任何可嵌入的内容等。

出于我们的目的，让我们简单地使用图像进行滚动。 img 标签具有 src 属性，但是通过 CSS 规则加载的图像又如何呢？有没有办法查看加载的资源总数？

最佳答案

一种方法是listen on the event 请求完成

const browser = await puppeteer.launch();
const page = await browser.newPage();

page.on('requestfinished', (request) => {
    console.log(request.url())
});

await page.goto('http://www.wildesoft.net/');
await page.waitFor(5000);

await browser.close();

这会将收到的所有资源记录到控制台，例如

关于javascript - 如何使用 puppeteer 查找网页上的所有资源？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49702770/

上一篇：javascript - 如何让 webpack 在构建过程中不将 process.env 变量转换为其值？

下一篇：node.js - 如何在 Azure Bot 服务上同时使用英语和法语 QnaMaker？

相关文章：

javascript - 交互式世界地图

Javascript 等价于 Ruby 的 __LINE__ 和 __FILE__ 常量

node.js - MongoDB 中集合级别的数据库池？

javascript - 在执行一个函数后运行 jquery 函数

javascript - 管理浏览器历史记录的巧妙方法

javascript - node.js 中未记录的 response.finished

node.js - Knex 不会结束连接 Postgres

javascript - 我可以将响应对象存储在哈希表中吗？

node.js - Handlebars 模板引擎循环问题

node.js - 如何在 Express 中出现未捕获错误后呈现 500 响应？