python - 识别并提取 PDF 文档的特定部分

我有几份 PDF 格式的考试。我想以编程方式将每个问题提取为单独的图像/文档。 OCR 并不理想，因为它不能很好地维护代码/方程格式。最终目标是制作闪存卡，每张卡都包含整个问题的图像。问题可以在同一页上，也可以由多个部分组成(例如 1a、2f 等)。

目前，我正在考虑使用 OCR 来提取问题标签(例如 1、2、3 等)，然后找到它们在 pdf 中的位置，并提取从一个问题的开头到下一个问题的开头的图像。是否有任何框架或软件可以做到这一点或提供某种替代方法来使这更容易？

最佳答案

看看Science-Parse通过 Allen AI 。它在从 PDF 文档中提取元数据方面做得相当不错。通常，它比其他文本提取软件(如textract)更好。和 pdfplumber .

从 PDF 中准确提取数学公式多年来一直是一个研究课题。我还没有找到任何与精确提取数学公式相关的开源项目/包/软件，尽管有许多研究论文描述了这样做的方法，例如 this和 this 。 (在识别数学公式或将其转换为适当的标记(例如 LaTeX、MathML 等)方面已经进行了更多研究。)这些论文中的大多数都使用有关字体、基线、字形边界框的信息，行间距等，以正确识别数学公式并提取它们。

对于 OCR，您始终可以使用 Infty 。 InftyReader 的描述如下:

InftyReader recognizes scanned images of printed scientific documents including Math formulae, an outputs the recognition results in various formats: XML format for InftyEditor, LaTeX, MathML, Human-Readable TeX for the blinds, etc.

关于python - 识别并提取 PDF 文档的特定部分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47148781/

python - 识别并提取 PDF 文档的特定部分

上一篇：python - 为新列赋值 [Python pandas]

下一篇：python - 比较两个字符串并创建一个包含该字母以及该字母在字符串中的计数的列表