pdftotext - 从 pdf 文件中删除页码、页眉和页脚

标签 pdftotext

我想解析一个pdf文件,因为我正在使用pdftotext实用程序将pdf文件转换为文本文件,现在我想从文本文件中删除页码、页眉和页脚。

我正在使用以下语法转换 pdf 文件:

pdftotext -layout input.pdf output.txt

谁能帮我解决这个问题吗?

最佳答案

您需要使用参数 -H -W -y -x 进行裁剪,至少为 -H -W -y。

示例:

pdftotext -y 80 -H 650 -W 1000 -nopgbrk -eol unix example.pdf


-y 80   -> crop 80 pixels after the top of file (remove header);
-H 650  -> crop 650 pixels after the -y has cropped (remove footer);
-W 1000 -> hight value to crop nothing (need especify something);

您需要针对每个 PDF 调整 -y 和 -H,有时减少 -y 并增加 -H 以适应页眉和页脚;

关于pdftotext - 从 pdf 文件中删除页码、页眉和页脚,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27901194/

相关文章:

linux - 由于 poppler,在 CentOS 上的 Python 3.6 中安装 pdftotext 时出现问题

python - 在 heroku 上安装 pdftotext 库

machine-learning - 如何训练和读取图像/PDF中的特定文本?

c++ - 在不使用 'pdftotext' 命令行工具的情况下查找 PDF 中的文本,而是使用其 API

linux - 如何在 linux 中使用 pdftext 在多个 pdf 文件中搜索一个词

linux - 在 Windows 7 上遇到“pdftotext”错误——在 Linux 下正确处理相同的 PDF

python - 使用 PdfMiner 和 PyPDF2 合并列提取文本

javascript - 如何将上传的 pdf 文件传递​​给变量。 (PDF.JS)

linux - 检查 PDF 是否可搜索