我有一个巨大的人名列表,我必须在巨大的文本中进行搜索。
只有名称的一部分可以出现在文本中。并且可能存在拼写错误、打字错误或缩写。文本没有标记,因此我不知道文本中人名的开头位置。我不知道这个名字是否会出现在文本中。
示例:
我的列表中有“Barack Hussein Obama”,因此我必须检查该名字在以下文本中是否出现:
- ...候选人巴拉克·奥巴马当选美国总统...(不完整)
- ...候选人巴拉克·侯赛因当选美国总统...(不完整)
- ...候选人Barack H. O.当选美国总统...(缩写)
- ...候选人巴拉克·奥巴马当选美国总统...(拼写错误)
- ...候选人Barack OVama当选美国总统...(输入错误,B 位于 V 旁边)
- ...候选人约翰·麦凯恩输掉了选举...(没有出现奥巴马的名字)
当然没有确定的解决方案,但是......
对于这种搜索,什么是好的启发式?
如果必须这样做,你会怎么做?
最佳答案
你说大约有 200 页。
将其分成 200 个单页 PDF。
将每个页面以及姓名列表放在 Mechanical Turk 上。提供每页约 5 美元的奖励。
关于language-agnostic - 如何在文本中搜索人名? (启发式),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/338661/