搜索了很多,但由于我找不到此类问题的解决方案,因此发布了一个明确的问题。大多数答案都涉及相对容易的图像/文本提取。
我需要从 PDF 中分别提取表格和图表作为文本 (csv) 和图像。
任何人都可以帮助我使用高效的 python 3.6 代码来解决同样的问题吗?
到目前为止,我可以使用 startmark = b"\xff\xd8"和 endmark = b"\xff\xd9"来提取 jpg,但并非 PDF 中的所有表格和图形都是纯 jpg,因此我的代码在实现这一目标。
例如,我想从第 11 页中提取表格,并从第 12 页中提取图形作为图像或以下给出的链接中可行的内容。该怎么做呢?
https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf
最佳答案
要提取表格,您可以使用 camelot
这是一个article关于它。
对于图像,我找到了这个问题和答案 Extract images from PDF without resampling, in python?
关于python - 如何使用Python从PDF文件中提取图表/表格/图形?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55899363/