python - PDF Parsing Using Python - 提取格式化文本和纯文本

标签 python pdf parsing text-extraction information-extraction

我正在寻找可以让我从 PDF 文档中提取文本的 PDF 库。我看过 PyPDF,它可以很好地从 PDF 文档中提取文本。这样做的问题是,如果文档中有表格,表格中的文本将与文档的其余部分一起被提取。这可能会产生问题,因为它会生成无用且看起来乱码的文本部分(例如,大量数字混在一起)。

我想从 PDF 文档中提取文本,排除任何表格和特殊格式。有没有图书馆可以做到这一点?

最佳答案

你也可以看看PDFMiner (或者对于旧版本的 Python,请参阅 PDFMinerPDFMiner)。

PDFMiner 的一个特别有趣的功能是,您可以控制它在提取文本部分时如何重新组合它们。您可以通过指定行、单词、字符等之间的空间来做到这一点。因此,也许通过调整它可以实现您想要的(这取决于您的文档的可变性)。 PDFMiner 还可以为您提供页面中文本的位置,它可以通过 Object ID 和其他东西提取数据。所以挖掘 PDFMiner 并发挥创造力!

但是您的问题确实不是一个容易解决的问题,因为在 PDF 中,文本不是连续的,而是由许多绝对位于页面中的小字符组组成。 PDF 的重点是保持布局完整。它不是面向内容,而是面向演示。

关于python - PDF Parsing Using Python - 提取格式化文本和纯文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1848464/

相关文章:

python - 如何使用 Matplotlib 制作简单的 3D 线?

python - python中的其余部分

xml - 在 C# 中从 XML 中删除所有属性的最简单方法是什么?

python - PLY:需要帮助理解 LALR 解析器如何解析给定语法的输入

python - 将url中的图像与python中文件系统中的图像进行比较

python - 添加一个新的 pandas 列,其中包含字典中的映射值

r - 页眉中的图片/ Logo 四开 qmd 转 pdf

C# PKCS7 智能卡数字签名 - 文档自签名以来已被更改或损坏

javascript - Adobe Acrobat - 使用 JavaScript 遍历 PDF 中的所有字段时出错

c# - 如何将 xml 内容显式分配给字符串