python - 如何使用Python从PDF文件中提取图表/表格/图形?

标签 python pdf python-3.6 ocr extract

搜索了很多,但由于我找不到此类问题的解决方案,因此发布了一个明确的问题。大多数答案都涉及相对容易的图像/文本提取。

我需要从 PDF 中分别提取表格和图表作为文本 (csv) 和图像。

任何人都可以帮助我使用高效的 p​​ython 3.6 代码来解决同样的问题吗?

到目前为止,我可以使用 startmark = b"\xff\xd8"和 endmark = b"\xff\xd9"来提取 jpg,但并非 PDF 中的所有表格和图形都是纯 jpg,因此我的代码在实现这一目标。

例如,我想从第 11 页中提取表格,并从第 12 页中提取图形作为图像或以下给出的链接中可行的内容。该怎么做呢?

https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf

最佳答案

要提取表格,您可以使用 camelot

这是一个article关于它。

对于图像,我找到了这个问题和答案 Extract images from PDF without resampling, in python?

关于python - 如何使用Python从PDF文件中提取图表/表格/图形?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55899363/

相关文章:

python - 如何在数据框中应用第 5 列的 cummax 逻辑

python - 如何使用pickle进行序列化

python - 我可以从 Python 脚本控制 PSFTP 吗?

javascript - PDF 响应缩放浏览器调整大小

python - psycopg2 上的 ModuleNotFoundError 仅在编译脚本上

python - 如何在对象创建过程中设置字段值?

python - 创建一个 NxM 矩阵 A 到 NxMxL 矩阵 B,其中 B[i,j, :] = kronecker_delta(A[i, j])?

python - 如何在 Python 中合并具有共同子字符串的字符串以在数据框中生成一些组

r - 在 R : grid. 表中打印数据框输出裁剪后的表,不响应字体大小

ios - 如何禁用 QLPreviewController 打印按钮