python - 从 PDF 中提取文本

我有一堆 PDF 文件需要转换为 TXT。不幸的是，当我使用许多可用的实用程序之一来执行此操作时，它会丢失所有格式并且 PDF 中的所有表格数据都会变得困惑。是否可以使用 Python 通过指定位置等方式从 PDF 中提取文本？

谢谢。

最佳答案

PDF 不包含表格数据，除非它包含结构化内容。一些工具包括试探法来尝试猜测数据结构并将其放回原处。我在 http://www.jpedal.org/PDFblog/2009/04/pdf-text/ 上写了一篇解释 PDF 文本提取问题的博客文章。

关于python - 从 PDF 中提取文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3148776/

相关文章：

python - pandas 取消列表的堆叠