PDF表格提取

标签 pdf pdfbox extraction

我将(相同)数据保存为 GIF 图像文件和 PDF 文件,我想将其解析为 HTML 或 XML。数据实际上是我大学食堂的菜单。这意味着每周都有一个新版本的文件需要解析!
通常,这些文件包含一些页眉和页脚文本,以及一个充满其他数据的表格。
我已经阅读了一些关于 stackoverflow 的帖子,我也开始尝试将表格数据解析为 HTML/XML:

PDF

  • PDFBox || iText (Java)
  • Google 文档导入
  • PDF2HTML || PDF2表

  • 动图
  • Tesseract-OCR

  • 我用 PDFBox 解析 PDF 文件得到了最好的结果,但是(因为菜单每周都在变化),它还是不够可靠。我收到的 HTML 有时包含更多、有时更少的“段落”( <p> ),因此我无法准确地解析数据。

    这就是为什么我想知道是否有其他方法可以做到这一点?

    最佳答案

    Tabula是从任意 PDF 中提取 CSV/TSV 表的 JRuby Web 界面的一个很好的开始。

    关于PDF表格提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10300786/

    相关文章:

    c++ - 如何计算结构 vector (这是一个类成员,使用提取运算符)

    typescript - 是否可以重用某些类的泛型的类型参数

    python - 使用 Google Drive API 将 PDF 转换为任何格式

    pdf - 如何在 Emacs 中打开 PDF 文件?

    java - 无法获取填写 PDFBox 的路径

    java - 在 JAVA 中使用 pdfbox 从 ArrayList<String> 创建 pdf 文件

    python - 使用 Python 进行独立于操作系统的打印

    asp.net-mvc-3 - 将 PartialView Html 转换为 ITextSharp HtmlParser 的字符串

    python - 对文件夹中的所有文件递归运行终端命令

    caffe - 如何提取网络的权重?