pdftotext - 从 pdf 文件中删除页码、页眉和页脚

我想解析一个pdf文件，因为我正在使用pdftotext实用程序将pdf文件转换为文本文件，现在我想从文本文件中删除页码、页眉和页脚。

我正在使用以下语法转换 pdf 文件:

pdftotext -layout input.pdf output.txt

谁能帮我解决这个问题吗？

最佳答案

您需要使用参数 -H -W -y -x 进行裁剪，至少为 -H -W -y。

示例:

pdftotext -y 80 -H 650 -W 1000 -nopgbrk -eol unix example.pdf


-y 80   -> crop 80 pixels after the top of file (remove header);
-H 650  -> crop 650 pixels after the -y has cropped (remove footer);
-W 1000 -> hight value to crop nothing (need especify something);

您需要针对每个 PDF 调整 -y 和 -H，有时减少 -y 并增加 -H 以适应页眉和页脚；

关于pdftotext - 从 pdf 文件中删除页码、页眉和页脚，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27901194/

上一篇：java - 使用 JSON.simple 创建带有键和值的对象和数组

下一篇：asp.net - 目标平台和 'Could not load file or assembly'错误

python - 在 heroku 上安装 pdftotext 库

machine-learning - 如何训练和读取图像/PDF中的特定文本？

c++ - 在不使用 'pdftotext' 命令行工具的情况下查找 PDF 中的文本，而是使用其 API

linux - 如何在 linux 中使用 pdftext 在多个 pdf 文件中搜索一个词

linux - 在 Windows 7 上遇到“pdftotext”错误——在 Linux 下正确处理相同的 PDF

python - 使用 PdfMiner 和 PyPDF2 合并列提取文本

javascript - 如何将上传的 pdf 文件传递给变量。 (PDF.JS)

linux - 检查 PDF 是否可搜索