javascript - JS无法访问函数内的全局变量

标签 javascript node.js puppeteer

我正在尝试使用 Node 和 Puppeteer 制作一个简单的网络爬虫来获取 reddit 上的帖子标题,但在仅从一个函数 extractItems() 中访问全局变量 SUBREDDIT_NAME 时遇到问题。它可以与其他所有函数配合使用,但对于该函数,我必须创建一个具有相同值的局部变量才能使其正常工作。

我是否完全误解了 Javascript 中的变量作用域?

我已经尝试了我能想到的一切,唯一有效的方法是在extractedItems()内部创建一个值为“news”的局部变量,否则我什么也得不到。

const fs = require('fs');
const puppeteer = require('puppeteer');
const SUBREDDIT = (subreddit_name) => `https://reddit.com/r/${subreddit_name}/`;
const SUBREDDIT_NAME= "news";


function extractItems() {
  const extractedElements = document.querySelectorAll(`a[href*='r/${SUBREDDIT_NAME}/comments/'] h3`);
  const items = [];
  for (let element of extractedElements) {
    items.push(element.innerText);
  }
  return items;
}

async function scrapeInfiniteScrollItems(
  page,
  extractItems,
  itemTargetCount,
  scrollDelay = 1000,
) {
  let items = [];
  try {
    let previousHeight;5
    while (items.length < itemTargetCount) {
      items = await page.evaluate(extractItems);
      previousHeight = await page.evaluate('document.body.scrollHeight');
      await page.evaluate('window.scrollTo(0, document.body.scrollHeight)');
      await page.waitForFunction(`document.body.scrollHeight > ${previousHeight}`);
      await page.waitFor(scrollDelay);
    }
  } catch(e) { }
  return items;
}

(async () => {
  // Set up browser and page.
  const browser = await puppeteer.launch({
    headless: false,
    args: ['--no-sandbox', '--disable-setuid-sandbox'],
  });
  const page = await browser.newPage();
  page.setViewport({ width: 1280, height: 926 });

  // Navigate to the demo page.
  await page.goto(SUBREDDIT(SUBREDDIT_NAME));

  // Scroll and extract items from the page.
  const items = await scrapeInfiniteScrollItems(page, extractItems, 100);

  // Save extracted items to a file.
  fs.writeFileSync('./items.txt', items.join('\n') + '\n');

  // Close the browser.
  await browser.close();
})();

我期望一个包含 100 个最先找到的标题的文本文件,但只有当我将 subreddit 硬编码到 extractItems() 函数中时它才有效。

最佳答案

问题是 extractItems 函数被转换为字符串(不处理模板文字)并在没有 SUBREDDIT_NAME 变量的页面上下文中执行。

您可以通过执行以下操作来解决此问题:

function extractItems(name) {
  const extractedElements = document.querySelectorAll(`a[href*='r/${name}/comments/'] h3`);
  const items = [];
  for (let element of extractedElements) {
    items.push(element.innerText);
  }
  return items;
}

page.evaluate(`(${extractItems})(${SUBREDDIT_NAME})`)

关于javascript - JS无法访问函数内的全局变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56730673/

相关文章:

javascript - 在 javascript、多维数组访问或对象访问中效率很高

javascript - 组件未在简单的 React.js 应用程序中呈现

javascript - MongoDB 聚合不返回具有相同值的对象

node.js - 为什么在 node.js 中运行这个查询会阻止进程退出?

javascript - 打印时加载 map 标记问题

javascript - 如何在 Puppeteer/Pyppeteer 中等待 Recaptcha 加载?

javascript - 使用 vue-multiselect 作为 laravel 的输入字段

javascript - 在 mongodb 中一次插入 2 个集合中的大数据

node.js - Node 库 Puppeteer 中的 BrowserContext 是什么?

javascript - 使用 Puppeteer 保存网页抓取密码的最安全方法是什么?