我将(相同)数据保存为 GIF 图像文件和 PDF 文件,我想将其解析为 HTML 或 XML。数据实际上是我大学食堂的菜单。这意味着每周都有一个新版本的文件需要解析!
通常,这些文件包含一些页眉和页脚文本,以及一个充满其他数据的表格。
我已经阅读了一些关于 stackoverflow 的帖子,我也开始尝试将表格数据解析为 HTML/XML:
PDF
动图
我用 PDFBox 解析 PDF 文件得到了最好的结果,但是(因为菜单每周都在变化),它还是不够可靠。我收到的 HTML 有时包含更多、有时更少的“段落”(
<p>
),因此我无法准确地解析数据。这就是为什么我想知道是否有其他方法可以做到这一点?
最佳答案
Tabula是从任意 PDF 中提取 CSV/TSV 表的 JRuby Web 界面的一个很好的开始。
关于PDF表格提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10300786/