python - 如何使用Python从PDF文件中提取图表/表格/图形？

搜索了很多，但由于我找不到此类问题的解决方案，因此发布了一个明确的问题。大多数答案都涉及相对容易的图像/文本提取。

我需要从 PDF 中分别提取表格和图表作为文本 (csv) 和图像。

任何人都可以帮助我使用高效的 python 3.6 代码来解决同样的问题吗？

到目前为止，我可以使用 startmark = b"\xff\xd8"和 endmark = b"\xff\xd9"来提取 jpg，但并非 PDF 中的所有表格和图形都是纯 jpg，因此我的代码在实现这一目标。

例如，我想从第 11 页中提取表格，并从第 12 页中提取图形作为图像或以下给出的链接中可行的内容。该怎么做呢？

最佳答案

要提取表格，您可以使用 camelot

这是一个article关于它。

关于python - 如何使用Python从PDF文件中提取图表/表格/图形？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55899363/

相关文章：

python - 如何在数据框中应用第 5 列的 cummax 逻辑