python - 如何将图像中的标题和标题与正文分开

我正在使用 tesseract (通过 python 包装器)来从文档中提取文本。这些文档不包含任何图像或表格，仅包含文本。

是否有任何选项可以区分标题/标题和文本？理想情况下，我希望能够拥有 xml 树之类的东西，而不是完整的字符串链(我不需要查看文档布局)。

我找到了一些third party tools这似乎能够提供帮助，但我想知道是否可以直接从 tesseract 做到这一点。

最佳答案

您可以使用Nanonets OCR api 用于创建您自己的模型，将标题和文本分开，或者您可以添加不同的标签。

关于python - 如何将图像中的标题和标题与正文分开，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51320121/