python - 使用 Python 将 hOCR 解析为 JSON

标签 python postgresql parsing python-tesseract hocr

我正在使用 tesseract-ocr 并获得 hOCR 格式的输出。我需要将这个 hOCR 输出存储到数据库中(在我的例子中是 PostgreSQL)。

由于我可能需要单独来自此 hOCR 的每条信息(其中的 80%),哪种方法才是正确的方法?它应该存储为 XML 数据类型还是解析为 JSON 并存储?在 JSON 的情况下,如何使用 Python 将此 hOCR 解析为 JSON。也感谢其他相关建议。

最佳答案

hOCR 似乎是 XML 的一种方言,因此您应该能够使用 stdlib 中的 xml.etree 模块将 hOCR 代码解析为 Python 可导航树。然后导航该树以组成对象或嵌套字典,最后使用标准库的 json 模块将该字典转换为 JSON。

关于python - 使用 Python 将 hOCR 解析为 JSON,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51421283/

相关文章:

python - python 中的 HTTP 请求超时

python - 将参数传递给 DB .execute for WHERE IN... INT list

sql - 如何为每个 Y 找到最相关的 X?

postgresql - 在 postgresql 中跟踪修订

php - 使用php从xml中提取信息

parsing - 可以处理歧义的解析器库

python - 在读取此 xml 之前,如何检查特定元素值 - django python

python - 保存屏幕上打印的内容

java - XML解析java

python - 用 '==' 替换 'is' 来比较 bool 值是否安全