google-cloud-vision - 文本提取 - 逐行

标签 google-cloud-vision google-vision

我正在使用 Google Vision API,主要是为了提取文本。我工作正常,但对于我需要 API 扫描输入行的特定情况,在移动到下一行之前吐出文本。但是,该 API 似乎使用了某种逻辑,使其从左侧从上到下扫描并移动到右侧并进行从上到下扫描。如果 API 从左到右读取,向下移动等等,我会很喜欢。

例如,考虑图像:

enter image description here

API 返回这样的文本:

“ Name DOB Gender: Lives In John Doe 01-Jan-1970 LA ”

然而,我会期待这样的事情:
“ Name: John Doe DOB: 01-Jan-1970 Gender: M Lives In: LA ”

我想有一种方法可以定义块大小或边距设置(?)来逐行读取图像/扫描?

谢谢你的帮助。
亚历克斯

最佳答案

这可能是一个迟到的答案,但添加它以供将来引用。
您可以向 JSON 请求添加功能提示以获得所需的结果。

{
  "requests": [
    {
      "image": {
        "source": {
          "imageUri": "/image/TRTXo.png"
        }
      },
      "features": [
        {
          "type": "DOCUMENT_TEXT_DETECTION"
        }
      ]
    }
  ]
}

对于相距很远的文本,DOCUMENT_TEXT_DETECTION 也不提供正确的行分割。

以下code根据字符多边形坐标做简单的线分割。

enter image description here

https://github.com/sshniro/line-segmentation-algorithm-to-gcp-vision

关于google-cloud-vision - 文本提取 - 逐行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42391009/

相关文章:

ios - iOS:扫描条形码非常慢

android - 使用 Google Mobile Vision API 识别扫描的二维码

python - 如何仅使用python中的云视觉api检测特定语言而忽略其他语言?

google-cloud-platform - 谷歌云愿景 : Model Is Not Exporting

google-cloud-vision - Cloud Vision API 可以检测对象的尺寸吗?

java - 如何设置 setLanguageHints

java - 从 vision api 预览条形码扫描器的大小

android - TextRecognizer 只能检测 TextBlocks

python - 如何使用 Google Cloud Vision API 返回特定标签置信度最高的图像?