node.js - 使用 puppeteer(库)进行网页抓取时克服分页

标签 node.js web-scraping pagination puppeteer

我正在使用 Puppeteer构建一个基本的网络抓取器,到目前为止,我可以从任何给定页面返回我需要的所有数据,但是当涉及分页时,我的抓取器就会松开(只返回第一页)。

参见示例 - 这会返回前 20 本书的标题/价格,但不会查看其他 49 页的书。

只是寻找有关如何克服这个问题的指导 - 我在文档中看不到任何内容。

谢谢!


const puppeteer = require('puppeteer');

let scrape = async () => {
  const browser = await puppeteer.launch({headless: false});
const page = await browser.newPage();

await page.goto('http://books.toscrape.com/');

const result = await page.evaluate(() => {
  let data = []; 
  let elements = document.querySelectorAll('.product_pod');

  for (var element of elements){
      let title = element.childNodes[5].innerText;
      let price = element.childNodes[7].children[0].innerText;

      data.push({title, price});
  }

  return data;
});

browser.close();
return result;
};

scrape().then((value) => {
console.log(value);
});

要清楚。我在这里学习教程 - 此代码来自 codeburst.io 上的 Brandon Morelli!! https://codeburst.io/a-guide-to-automating-scraping-the-web-with-javascript-chrome-puppeteer-node-js-b18efb9e9921

最佳答案

我正在关注同一篇文章,以便自学如何使用 Puppeteer。 对您的问题的简短回答是,您需要再引入一个循环来遍历在线图书目录中的所有可用页面。 我已完成以下步骤以收集所有书名和价格:

  1. 提取的 page.evaluate 部分以 page 作为参数的单独异步函数
  2. 引入了带有硬编码最后目录页码的 for 循环(如果需要,您可以在 Puppeteer 的帮助下提取它)
  3. 将第一步中的异步函数放在循环中

与 Brandon Morelli 文章中的代码完全相同,但现在多了一个循环:

const puppeteer = require('puppeteer');

let scrape = async () => {
    const browser = await puppeteer.launch({ headless: true });
    const page = await browser.newPage();

    await page.goto('http://books.toscrape.com/');

    var results = []; // variable to hold collection of all book titles and prices
    var lastPageNumber = 50; // this is hardcoded last catalogue page, you can set it dunamically if you wish
    // defined simple loop to iterate over number of catalogue pages
    for (let index = 0; index < lastPageNumber; index++) {
        // wait 1 sec for page load
        await page.waitFor(1000);
        // call and wait extractedEvaluateCall and concatenate results every iteration.
        // You can use results.push, but will get collection of collections at the end of iteration
        results = results.concat(await extractedEvaluateCall(page));
        // this is where next button on page clicked to jump to another page
        if (index != lastPageNumber - 1) {
            // no next button on last page
            await page.click('#default > div > div > div > div > section > div:nth-child(2) > div > ul > li.next > a');
        }
    }

    browser.close();
    return results;
};

async function extractedEvaluateCall(page) {
    // just extracted same exact logic in separate function
    // this function should use async keyword in order to work and take page as argument
    return page.evaluate(() => {
        let data = [];
        let elements = document.querySelectorAll('.product_pod');

        for (var element of elements) {
            let title = element.childNodes[5].innerText;
            let price = element.childNodes[7].children[0].innerText;

            data.push({ title, price });
        }

        return data;
    });
}

scrape().then((value) => {
    console.log(value);
    console.log('Collection length: ' + value.length);
    console.log(value[0]);
    console.log(value[value.length - 1]);
});

控制台输出:

...
  { title: 'In the Country We ...', price: '£22.00' },
  ... 900 more items ]
Collection length: 1000
{ title: 'A Light in the ...', price: '£51.77' }
{ title: '1,000 Places to See ...', price: '£26.08' }

关于node.js - 使用 puppeteer(库)进行网页抓取时克服分页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52325114/

相关文章:

node.js - Node 邮件程序 DEPTH_ZERO_SELF_SIGNED_CERT

python - 如何使用 Beautifulsoup4 抓取属性中未指定类或 id 的 HTML 元素

pagination - 无限滚动页面的Redis分页策略

ios - 无限滚动和重复数据

node.js - Redis-node库丢弃事务

javascript - 在根服务器上找不到 Discord JS v13 FFmpeg

node.js - NPM install --global 命令代理问题

python - 易趣 网页爬虫

python-2.7 - Scrapy没有进入解析函数

java - 如果 RecyclerView 中的列表为空,我想显示带有空消息的 Toast