python - 使用 Python 将 hOCR 解析为 JSON

我正在使用 tesseract-ocr 并获得 hOCR 格式的输出。我需要将这个 hOCR 输出存储到数据库中(在我的例子中是 PostgreSQL)。

由于我可能需要单独来自此 hOCR 的每条信息(其中的 80%)，哪种方法才是正确的方法？它应该存储为 XML 数据类型还是解析为 JSON 并存储？在 JSON 的情况下，如何使用 Python 将此 hOCR 解析为 JSON。也感谢其他相关建议。

最佳答案

hOCR 似乎是 XML 的一种方言，因此您应该能够使用 stdlib 中的 xml.etree 模块将 hOCR 代码解析为 Python 可导航树。然后导航该树以组成对象或嵌套字典，最后使用标准库的 json 模块将该字典转换为 JSON。

关于python - 使用 Python 将 hOCR 解析为 JSON，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51421283/

相关文章：

python - python 中的 HTTP 请求超时