对于泰语文档,我尝试使用 Google Document AI 提取文本和键值对。看到结果后,我发现泰语没有被保留。是否需要传递任何参数才能识别泰语字符,因为我只能得到英文字符的输出。
下面的链接显示 document-ai 也可以支持泰语。 https://cloud.google.com/document-ai/docs/languages
最佳答案
Supported Language Documentation特指光学字符识别支持的语言。
特定处理器可能支持有限的语言。既然您说您正在使用“键值对”,那么听起来您正在使用 Form Parser它在处理器页面上说它仅支持拉丁文字语言。 (不包括泰语)
文档可以更清楚地说明对各个处理器的语言支持,目前正在开展工作来解决此问题。
更新 1: Supported Languages Documentation已更新以使这一点更加明确。
Processor List页面还显示了每种处理器类型的语言支持。
更新 2:最新版本的 Form Parser 处理器 pretrained-form-parser-v2.0-2022-11-10
添加了对所有 200 多种语言的支持由Document OCR支持处理器,应包含泰语。
引用Managing processor versions有关如何使用它的信息。
关于python-3.x - 谷歌文档人工智能支持泰语吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72386879/