python - 识别并提取 PDF 文档的特定部分

标签 python pdf ocr image-recognition pdf-parsing

我有几份 PDF 格式的考试。我想以编程方式将每个问题提取为单独的图像/文档。 OCR 并不理想,因为它不能很好地维护代码/方程格式。最终目标是制作闪存卡,每张卡都包含整个问题的图像。问题可以在同一页上,也可以由多个部分组成(例如 1a、2f 等)。

目前,我正在考虑使用 OCR 来提取问题标签(例如 1、2、3 等),然后找到它们在 pdf 中的位置,并提取从一个问题的开头到下一个问题的开头的图像。是否有任何框架或软件可以做到这一点或提供某种替代方法来使这更容易?

最佳答案

看看Science-Parse通过 Allen AI 。它在从 PDF 文档中提取元数据方面做得相当不错。通常,它比其他文本提取软件(如textract)更好。和 pdfplumber .

从 PDF 中准确提取数学公式多年来一直是一个研究课题。我还没有找到任何与精确提取数学公式相关的开源项目/包/软件,尽管有许多研究论文描述了这样做的方法,例如 thisthis 。 (在识别数学公式或将其转换为适当的标记(例如 LaTeX、MathML 等)方面已经进行了更多研究。)这些论文中的大多数都使用有关字体、基线、字形边界框的信息,行间距等,以正确识别数学公式并提取它们。

对于 OCR,您始终可以使用 Infty 。 InftyReader 的描述如下:

InftyReader recognizes scanned images of printed scientific documents including Math formulae, an outputs the recognition results in various formats: XML format for InftyEditor, LaTeX, MathML, Human-Readable TeX for the blinds, etc.

关于python - 识别并提取 PDF 文档的特定部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47148781/

相关文章:

python - 替换2个字符串python之间的所有文本

python - 在 NLTK/Python 中使用电影评论语料库进行分类

javascript - 从 html5 应用程序打开 pdf 的外部链接 - PhoneGap

java - 检查 PDF 文件是否为扫描文件

java - 模式(正则表达式)与找到的值之间的相似性

python - 为什么我不能分配给 Pandas DataFrame 的一部分?

python - django rest 框架权限 'isAdminorReadonly'

java - 从服务器检索 pdf 文件流

pdf - 将 PDF 转换为高分辨率图像

c# - 如何快速有效地从 'simple' 截图中读取文本?