language-agnostic - 如何在文本中搜索人名? (启发式)

标签 language-agnostic search heuristics

我有一个巨大的人名列表,我必须在巨大的文本中进行搜索。

只有名称的一部分可以出现在文本中。并且可能存在拼写错误打字错误缩写。文本没有标记,因此我不知道文本中人名的开头位置。我不知道这个名字是否会出现在文本中。

示例:

我的列表中有“Barack Hussein Obama”,因此我必须检查该名字在以下文本中是否出现:

  • ...候选人巴拉克·奥巴马当选美国总统...(不完整)
  • ...候选人巴拉克·侯赛因当选美国总统...(不完整)
  • ...候选人Barack H. O.当选美国总统...(缩写)
  • ...候选人巴拉克·奥巴马当选美国总统...(拼写错误)
  • ...候选人Barack OVama当选美国总统...(输入错误,B 位于 V 旁边)
  • ...候选人约翰·麦凯恩输掉了选举...(没有出现奥巴马的名字)

当然没有确定的解决方案,但是......

对于这种搜索,什么是好的启发式?

如果必须这样做,你会怎么做?

最佳答案

你说大约有 200 页。

将其分成 200 个单页 PDF。

将每个页面以及姓名列表放在 Mechanical Turk 上。提供每页约 5 美元的奖励。

关于language-agnostic - 如何在文本中搜索人名? (启发式),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/338661/

相关文章:

artificial-intelligence - 什么启发式评估函数或算法可以被视为 Not Acceptable

php - 向 A* php 实现添加非单调启发式

algorithm - 这是旅行商问题的变体吗?

android - 在整个 SQLite 数据库中搜索关键字以在 Android 应用程序中实现搜索功能

algorithm - Minimax 算法没有按预期工作

java - 顺序搜索

c# - 如何在 UTF-8 字节数组中找到字符串的起始索引? (C#)

algorithm - 最小面积四边形算法

language-agnostic - 在网页上放置 "Send it to a friend"按钮有意义吗?

c# - 文件中数据段的重新排序