PDF表格提取

标签 pdf pdfbox extraction

我将(相同)数据保存为 GIF 图像文件和 PDF 文件，我想将其解析为 HTML 或 XML。数据实际上是我大学食堂的菜单。这意味着每周都有一个新版本的文件需要解析!
通常，这些文件包含一些页眉和页脚文本，以及一个充满其他数据的表格。
我已经阅读了一些关于 stackoverflow 的帖子，我也开始尝试将表格数据解析为 HTML/XML:

PDF

PDFBox || iText (Java)

Google 文档导入

PDF2HTML || PDF2表

动图

Tesseract-OCR

我用 PDFBox 解析 PDF 文件得到了最好的结果，但是(因为菜单每周都在变化)，它还是不够可靠。我收到的 HTML 有时包含更多、有时更少的“段落”( <p> )，因此我无法准确地解析数据。

这就是为什么我想知道是否有其他方法可以做到这一点？

最佳答案

Tabula是从任意 PDF 中提取 CSV/TSV 表的 JRuby Web 界面的一个很好的开始。

关于PDF表格提取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10300786/