node.js - 使用 Puppeteer 和 headless Chrome 获取 DOM Node 文本

标签 node.js google-chrome-headless puppeteer

我正在尝试使用 headless Chrome 和 Puppeteer 来运行我们的 Javascript 测试,但我无法从页面中提取结果。基于 this answer ,看来我应该使用 page.evaluate() .该部分甚至有一个看起来像我需要的示例。

const bodyHandle = await page.$('body');
const html = await page.evaluate(body => body.innerHTML, bodyHandle);
await bodyHandle.dispose();

作为一个完整的示例,我尝试将其转换为一个脚本,该脚本将从我在 Stack Overflow 上的用户个人资料中提取我的姓名。我们的项目使用的是 Node 6,所以我将 await 表达式转换为使用 .then().

const puppeteer = require('puppeteer');

puppeteer.launch().then(function(browser) {
    browser.newPage().then(function(page) {
        page.goto('https://stackoverflow.com/users/4794').then(function() {
            page.$('h2.user-card-name').then(function(heading_handle) {
                page.evaluate(function(heading) {
                    return heading.innerText;
                }, heading_handle).then(function(result) {
                    console.info(result);
                    browser.close();
                }, function(error) {
                    console.error(error);
                    browser.close();
                });
            });
        });
    });
});

当我运行它时,我得到了这个错误:

$ node get_user.js 
TypeError: Converting circular structure to JSON
    at Object.stringify (native)
    at args.map.x (/mnt/data/don/git/Kive/node_modules/puppeteer/node6/helper.js:30:43)
    at Array.map (native)
    at Function.evaluationString (/mnt/data/don/git/Kive/node_modules/puppeteer/node6/helper.js:30:29)
    at Frame.<anonymous> (/mnt/data/don/git/Kive/node_modules/puppeteer/node6/FrameManager.js:376:31)
    at next (native)
    at step (/mnt/data/don/git/Kive/node_modules/puppeteer/node6/FrameManager.js:355:24)
    at Promise (/mnt/data/don/git/Kive/node_modules/puppeteer/node6/FrameManager.js:373:12)
    at fn (/mnt/data/don/git/Kive/node_modules/puppeteer/node6/FrameManager.js:351:10)
    at Frame._rawEvaluate (/mnt/data/don/git/Kive/node_modules/puppeteer/node6/FrameManager.js:375:3)

问题似乎在于将输入参数序列化为 page.evaluate()。我可以传入字符串和数字,但不能传入元素句柄。示例是错误的,还是 Node 6 的问题?如何提取 DOM Node 的文本?

最佳答案

我找到了三个解决此问题的方法,具体取决于您提取的复杂程度。最简单的选项是一个我没有注意到的相关函数:page.$eval() .它基本上做了我想做的事:结合了 page.$()page.evaluate()。这是一个有效的示例:

const puppeteer = require('puppeteer');

puppeteer.launch().then(function(browser) {
    browser.newPage().then(function(page) {
        page.goto('https://stackoverflow.com/users/4794').then(function() {
            page.$eval('h2.user-card-name', function(heading) {
                return heading.innerText;
            }).then(function(result) {
                console.info(result);
                browser.close();
            });
        });
    });
});

这给了我预期的结果:

$ node get_user.js 
Don Kirkby top 2% overall

我想提取一些更复杂的东西,但我终于意识到评估函数是在页面上下文中运行的。这意味着您可以使用页面中加载的任何工具,然后来回发送字符串和数字。在这个例子中,我在一个字符串中使用 jQuery 来提取我想要的内容:

const puppeteer = require('puppeteer');

puppeteer.launch().then(function(browser) {
    browser.newPage().then(function(page) {
        page.goto('https://stackoverflow.com/users/4794').then(function() {
            page.evaluate("$('h2.user-card-name').text()").then(function(result) {
                console.info(result);
                browser.close();
            });
        });
    });
});

这给了我一个空白完整的结果:

$ node get_user.js 

                            Don Kirkby

                                top 2% overall

在我的真实脚本中,我想提取几个 Node 的文本,所以我需要一个函数而不是一个简单的字符串:

const puppeteer = require('puppeteer');

puppeteer.launch().then(function(browser) {
    browser.newPage().then(function(page) {
        page.goto('https://stackoverflow.com/users/4794').then(function() {
            page.evaluate(function() {
                return $('h2.user-card-name').text();
            }).then(function(result) {
                console.info(result);
                browser.close();
            });
        });
    });
});

这给出了完全相同的结果。现在我需要添加错误处理,并可能降低缩进级别。

关于node.js - 使用 Puppeteer 和 headless Chrome 获取 DOM Node 文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46202985/

相关文章:

python - 在 Django 项目中使用 Web 套接字的最佳方法是什么?

node.js - 以 upsert 为条件进行 Sequelize

javascript - "First argument must be a string or Buffer"- 遵循 w3schools 的 Node.js 教程时出错

java - 无法使用selenium下载任何文件

javascript - 如何自定义strapi图像上传以使用第三方库进行图像压缩?

javascript - Puppeteer 在 headless 模式下挂起

javascript - 如何检测与 puppeteer 一起使用的 chrome 版本?

javascript - 具有延迟加载图像的 Puppeteer

javascript - 是否可以在创建屏幕截图之前使用 Puppeteer 修改 DOM 中的元素?

javascript - Windows 上的 Puppeteer : Clicking anchor while Meta key pressed won't open link in new tab as expected