node.js - Puppeteer-Cluster 的隐秘性是否足以通过机器人测试?

标签 node.js automated-tests puppeteer end-to-end puppeteer-cluster

我想知道使用 Puppeteer-Cluster 的人是否可以详细说明 Cluster.Launch({settings}) 如何防止在不同上下文的页面之间共享 cookie 和 Web 数据。

执行浏览器上下文 here ,实际上阻止cookie并且用户数据不被共享或跟踪?无浏览器现在臭名昭著的页面似乎认为不,here并且应该在任务上调用 .launch({}),而不是在队列之前调用。

所以我的问题是,我们如何知道 puppeteer-cluster 是否在排队任务之间共享 cookie/数据?库中有哪些选项可以降低被标记为机器人的机会?

设置:我正在将 page.authenticate 与代理服务、随机用户代理一起使用,但我执行测试的网站偶尔仍会被阻止 (403)。

async function run() {
// Create a cluster with 2 workers
  const cluster = await Cluster.launch({
    concurrency: Cluster.CONCURRENCY_BROWSER, //Cluster.CONCURRENCY_PAGE,
    maxConcurrency: 2, //5, //25, //the number of chromes open
    monitor: false, //true,
    puppeteerOptions: {
      executablePath,
      args: [
        "--proxy-server=pro.proxy.net:2222",
        "--incognito",
        "--disable-gpu",
        "--disable-dev-shm-usage",
        "--disable-setuid-sandbox",
        "--no-first-run",
        "--no-sandbox",
        "--no-zygote"
      ],
      headless: false,
      sameDomainDelay: 1000,
      retryDelay: 3000,
      workerCreationDelay: 3000
    }
  });

   // Define a task 
      await cluster.task(async ({ page, data: url }) => {
         extract(url, page); //call the extract
      });

   //task
      const extract = async ({ page, data: dataJson }) => {
         page.setExtraHTTPHeaders({headers})

         await page.authenticate({
           username: proxy_user, 
           password: proxy_pass
         });

       //Randomized Delay
         await delay(2000 + (Math.floor(Math.random() * 998) + 1));

         const response = await page.goto(dataJson.Url);
 }

//loop over inputs, and queue them into cluster
  var dataJson = {
      url: url
      };

  cluster.queue(dataJson, extract);

 }

 // Shutdown after everything is done
 await cluster.idle();
 await cluster.close();

}

最佳答案

直接回答

这里是puppeteer-cluster的作者。该库不会主动阻止 cookie,但会利用 browser.createIncognitoBrowserContext() :

Creates a new incognito browser context. This won't share cookies/cache with other browser contexts.

此外,文档指出“隐身浏览器上下文不会将任何浏览数据写入磁盘”( source ),因此重新启动浏览器无法重用磁盘中的任何 cookie,因为那里没有写入数据。

关于库,这意味着当执行作业时,会创建一个新的隐身上下文,该上下文不与其他上下文共享任何数据(cookie 等)。因此,只要 Chromium 正确实现隐身浏览器上下文,作业之间就不会共享数据。

您链接的页面仅讨论 browser.newPage() (在页面之间共享 Cookie),而不涉及隐身上下文。

为什么网站可能会将您识别为机器人

有些网站仍然会阻止您,因为它们使用不同的措施来检测机器人。有headless browser detection tests以及指纹库,如果用户代理与浏览器指纹不匹配,它们可能会将您报告为机器人。您可能对this answer感兴趣我提供了一些更详细的解释这些指纹如何工作。

您可以尝试使用像puppeteer-extra这样的库带有 stealth插件来帮助您解决问题。然而,这基本上是一场猫捉老鼠的游戏。指纹测试可能会发生变化,或者其他站点可能会使用不同的“检测”机制。总而言之,没有办法保证网站不会检测到您。

如果您想使用 puppeteer-extra,请注意,您可以将其与 puppeteer-cluster ( example code ) 结合使用。

关于node.js - Puppeteer-Cluster 的隐秘性是否足以通过机器人测试?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59672126/

相关文章:

javascript - puppeteer 师。无法在评估()中获取 Node 属性

html - html页面中多个ng-view的css选择器

node.js - 相当于 ExpectedConditions.or 的 Node ,用于等待多个元素之一

unit-testing - 如何使用 rabbitmq 在 python 中编写单元/集成测试?

python - Cobra/LDTP 导入不起作用

javascript - TestCafe beforeEach 钩子(Hook) - 如何执行一个函数并声明一个变量

javascript - 运行 Puppeteer 时出现 UnhandledPromiseRejectionWarning?

javascript - 为什么 node.js 会多次显示相同的内容?

javascript - 如何从 branch.io 的身份访问 Branch Identity ID

javascript - 使用 puppeteer 进行 JS 网页抓取,出现此错误 : (node:12121) UnhandledPromiseRejectionWarning: TypeError: src. jsonValue 不是函数