我有一堆 PDF 文件需要转换为 TXT。不幸的是,当我使用许多可用的实用程序之一来执行此操作时,它会丢失所有格式并且 PDF 中的所有表格数据都会变得困惑。是否可以使用 Python 通过指定位置等方式从 PDF 中提取文本?
谢谢。
最佳答案
PDF 不包含表格数据,除非它包含结构化内容。一些工具包括试探法来尝试猜测数据结构并将其放回原处。我在 http://www.jpedal.org/PDFblog/2009/04/pdf-text/ 上写了一篇解释 PDF 文本提取问题的博客文章。
关于python - 从 PDF 中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3148776/