node.js - PDF.js - 将 pdf 拆分为多个页面并重新构建多个文件

标签 node.js pdf.js

我目前正在开发一个 Node.js 项目。所需的操作之一是读取 pdf 文档的文本,然后将该文档拆分为单独的文件。

由于我在这个项目中一直使用 pdf.js 进行所有其他 pdf 解析,因此我希望也使用它来完成上述要求。

阅读 PDF 及其文本内容相对简单。

例如 -

function GetWords(pdfUrl){
var pdf = PDFJS.getDocument(pdfUrl);
return pdf.then(function(pdf) { // calculate total count for document
     var maxPages = pdf.pdfInfo.numPages;
     var countPromises = []; // collecting all page promises
     for (var j = 1; j <= maxPages; j++) {
        var page = pdf.getPage(j);
        var txt = "";
        countPromises.push(page.then(function(page) { // add page promise
            var textContent = page.getTextContent();
            return textContent.then
            (
                function(page)
                { // return content promise

                    for(var i=0;i<page.items.length;i++)
                    {
                        var txtadd = page.items[i].str

                        txt += txtadd.replace(/[^a-zA-Z0-9:;,.?!-() ]/g,'');
                    }
                    return txt.split(" ").length; // value for page words
                });
        }));


     }
     // Wait for all pages and sum counts
     return Promise.all(countPromises).then(function (counts) {
       var count = 0;
       //counts.forEach(function (c) { count += c; });
       return count;
     });
});
}

但是,我似乎找不到任何从一个/或多页页面构建 PDF 的示例。理想情况下,我想使用 pdf.GetPage(j) 来获取所需页面的数组。然后将它们插入一个新文档并将该新文档保存到磁盘。

如有任何帮助,我们将不胜感激。

最佳答案

我最终使用了一个单独的库来执行拆分。 http://pdfhummus.com/ 。因此,结合 PDF.js,我能够获得所需的结果。

关于node.js - PDF.js - 将 pdf 拆分为多个页面并重新构建多个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50797264/

相关文章:

node.js - Node promise 链接导致函数中返回语句过多

javascript - 无法从后端到前端 Angular 选择选项获取文件列表?

node.js - Loopback API Explorer 身份验证

gwt - PDF.js 与 GWT 应用程序不起作用

javascript - 使用 pdf.js 防止 idm 自动下载 PDF

javascript - pdf.js 不适用于 &lt;!DOCTYPE HTML>

node.js - Nodejs createDecipher,可以用两个不同的 key 解密相同的密文

node.js - 在 Nodejs 中加载静态资源

javascript - S3 文件的 PDF.js CORS 问题

PDF.js 能够创建 pdf 文件或 PDF.js 只是一个让 PDF 文件显示在网络浏览器上的功能?