我有来自表单的 OCR 文本。我需要提取经常与标题和其他无关(但已知)文本混合的文本。
我的表单上有一个姓名框。我通常从 OCR 返回:
“名字:一些名字”
在这里我可以删除“姓名:”并继续我的一天。
不幸的是,我经常得到这样的东西:
- “说出一些名字”
- “我:一些名字”
- “我的名字”
- “名字。一些名字”
- “NameSome 名称”
- “ameSome 名称”
当您现在要删除的字符串经常被破坏时,有哪些技术可以清理/提取所需的文本?
我正在使用 Javascript/Node。
谢谢
最佳答案
如果您总是希望获得标签,或者至少是标签的一部分,您可以尝试使用正则表达式来匹配它,然后删除。
类似于(首先将其转换为小写):
^n?ame[:.\-\s]?
行首可能有也可能没有“n”,后跟“ame”,然后是分隔符,如“: . 或 -”
这可能不适用于所有情况,但它适用于您提供的示例
关于javascript - 替换不可靠字符串中的已知文本 (OCR),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59017348/