javascript - 如何通过puppeteer获取嵌入页面的pdf?

标签 javascript node.js puppeteer

我正在尝试获取一个页面的 pdf 副本,其结构如下:

<body style="background-color: rgb(38,38,38); height: 100%; width: 100%; overflow: hidden; margin: 0">
    <embed width="100%" height="100%" name="plugin" id="plugin" src="https://www.thesourceurl.com" type="application/pdf" internalinstanceid="7" title="">
</body>

我尝试使用page.pdf获取它,但我得到了一个空白的pdf,中间写着“无法加载插件”。

最佳答案

对于其他偶然发现这个问题的人,

在撰写本文时,这是 chromium 中的一个已知错误,您无法在 headless:true 模式下导航到 pdf 或嵌入 pdf 的页面。

我找到了一个临时解决方案 here ,不过您必须事先知道获取 pdf 的 url。

page.exposeFunction("writeABString", async (strbuf, targetFile) => {

        var str2ab = function _str2ab(str) { // Convert a UTF-8 String to an ArrayBuffer

            var buf = new ArrayBuffer(str.length); // 1 byte for each char
            var bufView = new Uint8Array(buf);

            for (var i=0, strLen=str.length; i < strLen; i++) {
              bufView[i] = str.charCodeAt(i);
            }
            return buf;
        }

        console.log("In 'writeABString' function...");

        return new Promise((resolve, reject) => {

            // Convert the ArrayBuffer string back to an ArrayBufffer, which in turn is converted to a Buffer
            let buf = Buffer.from(str2ab(strbuf));

            // Try saving the file.        
            fs.writeFile(targetFile, buf, (err, text) => {
                if(err) reject(err);
                else resolve(targetFile);
            });
        });
    });

在上一页中,您必须使用评估调用并获取 api 来获取 pdf,以最初获取缓冲区响应并对其进行转换:

page.evaluate( async () => { 

    function arrayBufferToString(buffer){ // Convert an ArrayBuffer to an UTF-8 String

        var bufView = new Uint8Array(buffer);
        var length = bufView.length;
        var result = '';
        var addition = Math.pow(2,8)-1;

        for(var i = 0;i<length;i+=addition){
            if(i + addition > length){
                addition = length - i;
            }
            result += String.fromCharCode.apply(null, bufView.subarray(i,i+addition));
        }
        return result;
    }

   let geturl = "https://whateverurl.example.com";

   return fetch(geturl, {
       credentials: 'same-origin', // usefull when we are logged into a website and want to send cookies
       responseType: 'arraybuffer', // get response as an ArrayBuffer
   })
   .then(response => response.arrayBuffer())
   .then( arrayBuffer => {
       var bufstring = arrayBufferToString(arrayBuffer);
       return window.writeABString(bufstring, '/tmp/downloadtest.pdf');
   })
   .catch(function (error) {
       console.log('Request failed: ', error);
   }); 
 });

关于javascript - 如何通过puppeteer获取嵌入页面的pdf?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49665650/

相关文章:

javascript - 有没有办法访问 marko 类中的 "window"和 "document"引用?

javascript - 如何在不和谐的机器人中制作多语言?

javascript - 如何在 node js 中使用 puppeteer 滚动页面 5 分钟(如果之前完成则更短)?

javascript - 带 Stripe rails 的信用卡类型图像 4

javascript - 更改消息框标题

node.js - 使用 npm 脚本作为 "bin"

javascript - 使用 VSCode 的 Node 调试器时是否可以黑盒 vendor 代码?

javascript - 如何在 puppeteer 中使用 querySelectorAll 获取输入值

docker - Laravel Sail 安装 puppeteer Chrome

javascript - 缓慢附加 li,for 循环与 ajax 调用后使其变慢?