我正在使用 Google Vision API,主要是为了提取文本。我工作正常,但对于我需要 API 扫描输入行的特定情况,在移动到下一行之前吐出文本。但是,该 API 似乎使用了某种逻辑,使其从左侧从上到下扫描并移动到右侧并进行从上到下扫描。如果 API 从左到右读取,向下移动等等,我会很喜欢。
例如,考虑图像:
API 返回这样的文本:
“ Name DOB Gender: Lives In John Doe 01-Jan-1970 LA ”
然而,我会期待这样的事情:
“ Name: John Doe DOB: 01-Jan-1970 Gender: M Lives In: LA ”
我想有一种方法可以定义块大小或边距设置(?)来逐行读取图像/扫描?
谢谢你的帮助。
亚历克斯
最佳答案
这可能是一个迟到的答案,但添加它以供将来引用。
您可以向 JSON 请求添加功能提示以获得所需的结果。
{
"requests": [
{
"image": {
"source": {
"imageUri": "/image/TRTXo.png"
}
},
"features": [
{
"type": "DOCUMENT_TEXT_DETECTION"
}
]
}
]
}
对于相距很远的文本,DOCUMENT_TEXT_DETECTION 也不提供正确的行分割。
以下code根据字符多边形坐标做简单的线分割。
https://github.com/sshniro/line-segmentation-algorithm-to-gcp-vision
关于google-cloud-vision - 文本提取 - 逐行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42391009/