python - PDF Parsing Using Python - 提取格式化文本和纯文本

标签 python pdf parsing text-extraction information-extraction

已结束。此问题不符合 Stack Overflow guidelines .它目前不接受答案。

我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题，以便用事实和引用来回答它。

关闭 7 年前。

我正在寻找可以让我从 PDF 文档中提取文本的 PDF 库。我看过 PyPDF，它可以很好地从 PDF 文档中提取文本。这样做的问题是，如果文档中有表格，表格中的文本将与文档的其余部分一起被提取。这可能会产生问题，因为它会生成无用且看起来乱码的文本部分(例如，大量数字混在一起)。

我想从 PDF 文档中提取文本，排除任何表格和特殊格式。有没有图书馆可以做到这一点？

最佳答案

你也可以看看PDFMiner (或者对于旧版本的 Python，请参阅 PDFMiner 和 PDFMiner)。

PDFMiner 的一个特别有趣的功能是，您可以控制它在提取文本部分时如何重新组合它们。您可以通过指定行、单词、字符等之间的空间来做到这一点。因此，也许通过调整它可以实现您想要的(这取决于您的文档的可变性)。 PDFMiner 还可以为您提供页面中文本的位置，它可以通过 Object ID 和其他东西提取数据。所以挖掘 PDFMiner 并发挥创造力!

但是您的问题确实不是一个容易解决的问题，因为在 PDF 中，文本不是连续的，而是由许多绝对位于页面中的小字符组组成。 PDF 的重点是保持布局完整。它不是面向内容，而是面向演示。

关于python - PDF Parsing Using Python - 提取格式化文本和纯文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1848464/