python - 从 PDF 中提取文本

标签 python pdf

我有一堆 PDF 文件需要转换为 TXT。不幸的是,当我使用许多可用的实用程序之一来执行此操作时,它会丢失所有格式并且 PDF 中的所有表格数据都会变得困惑。是否可以使用 Python 通过指定位置等方式从 PDF 中提取文本?

谢谢。

最佳答案

PDF 不包含表格数据,除非它包含结构化内容。一些工具包括试探法来尝试猜测数据结构并将其放回原处。我在 http://www.jpedal.org/PDFblog/2009/04/pdf-text/ 上写了一篇解释 PDF 文本提取问题的博客文章。

关于python - 从 PDF 中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3148776/

相关文章:

python - pandas 取消列表的堆叠

python - 如何在 matplotlib 中强制使用正方形网格

python - 获取Gurobi优化的中间结果

javascript - PDF 到 JPG 转换器

javascript - JavaScript 中的 HTML 和 CSS 到 PDF

PHP 强制下载 PDF 文件,即使我使用的是 Content-Disposition : inline

python - Python 中具有复指数元素的矩阵

python - 仅在所有元素均为 0 的矩阵的第一行和第一列添加元素

pdf - 如何在 PDF 中设置水平或垂直对齐文本?

c# - 将 PDF 转换为任何可以用 Word 打开的文件