javascript - 替换不可靠字符串中的已知文本 (OCR)

标签 javascript node.js ocr text-extraction

我有来自表单的 OCR 文本。我需要提取经常与标题和其他无关(但已知)文本混合的文本。

我的表单上有一个姓名框。我通常从 OCR 返回:

“名字:一些名字”

在这里我可以删除“姓名:”并继续我的一天。

不幸的是,我经常得到这样的东西:

  • “说出一些名字”
  • “我:一些名字”
  • “我的名字”
  • “名字。一些名字”
  • “NameSome 名称”
  • “ameSome 名称”

当您现在要删除的字符串经常被破坏时,有哪些技术可以清理/提取所需的文本?

我正在使用 Javascript/Node。

谢谢

最佳答案

如果您总是希望获得标签,或者至少是标签的一部分,您可以尝试使用正则表达式来匹配它,然后删除。

类似于(首先将其转换为小写):

^n?ame[:.\-\s]?

行首可能有也可能没有“n”,后跟“ame”,然后是分隔符,如“: . 或 -”

这可能不适用于所有情况,但它适用于您提供的示例

关于javascript - 替换不可靠字符串中的已知文本 (OCR),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59017348/

相关文章:

node.js - 我应该如何在同一系统上组织多个 Express 服务器?

node.js - Dynamo 数据库分页

node.js - 我怎样才能让 ejs 与 mongoose 一起工作?

python - 使用 Tesseract 识别页面上的单个字符

python - PyTesseract OCR 无法从简单图像中读取数字

javascript - 如何异步写入和读取 Node 中的同一文件?

javascript - 在选择更改时打开下一个选择元素

python - 如何教卷积神经网络对未知图像说 "no"?

javascript - 我应该在 javascript 中定义多少个嵌套对象?

javascript - 无法使用javascript更改图像的高度和宽度