javascript - 如何使用 puppeteer 查找网页上的所有资源?

标签 javascript node.js express web-scraping puppeteer

我想使用 puppeteer 来搜索页面并返回所有可用资源,包括图像、pdf、任何可嵌入的内容等。

出于我们的目的,让我们简单地使用图像进行滚动。 img 标签具有 src 属性,但是通过 CSS 规则加载的图像又如何呢?有没有办法查看加载的资源总数?

最佳答案

一种方法是listen on the event 请求完成

const browser = await puppeteer.launch();
const page = await browser.newPage();

page.on('requestfinished', (request) => {
    console.log(request.url())
});

await page.goto('http://www.wildesoft.net/');
await page.waitFor(5000);

await browser.close();

这会将收到的所有资源记录到控制台,例如

Screen grab of result

关于javascript - 如何使用 puppeteer 查找网页上的所有资源?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49702770/

相关文章:

javascript - 交互式世界地图

Javascript 等价于 Ruby 的 __LINE__ 和 __FILE__ 常量

node.js - MongoDB 中集合级别的数据库池?

javascript - 在执行一个函数后运行 jquery 函数

javascript - 管理浏览器历史记录的巧妙方法

javascript - node.js 中未记录的 response.finished

node.js - Knex 不会结束连接 Postgres

javascript - 我可以将响应对象存储在哈希表中吗?

node.js - Handlebars 模板引擎循环问题

node.js - 如何在 Express 中出现未捕获错误后呈现 500 响应?