我正在使用 tesseract-ocr 并获得 hOCR 格式的输出。我需要将这个 hOCR 输出存储到数据库中(在我的例子中是 PostgreSQL)。
由于我可能需要单独来自此 hOCR 的每条信息(其中的 80%),哪种方法才是正确的方法?它应该存储为 XML 数据类型还是解析为 JSON 并存储?在 JSON 的情况下,如何使用 Python 将此 hOCR 解析为 JSON。也感谢其他相关建议。
最佳答案
hOCR 似乎是 XML 的一种方言,因此您应该能够使用 stdlib 中的 xml.etree
模块将 hOCR 代码解析为 Python 可导航树。然后导航该树以组成对象或嵌套字典,最后使用标准库的 json
模块将该字典转换为 JSON。
关于python - 使用 Python 将 hOCR 解析为 JSON,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51421283/