string - 寻求字符串处理挑战的算法(或指向文献的指针)

一群有趣的学生专门抄袭威廉·莎士比亚全集的一部分来写论文。在天平的一端，一篇文章可能完全由一段独白的逐字副本组成……另一方面，人们可能会看到作品如此新颖，以至于——虽然使用了一个共同的字母表——但文章中没有两个相邻的字符被相邻地使用会。

论文需要评分。可以在完整作品的纯文本中找到(逐个字符相同)的任何文章都会获得 1 分。可以从完整作品中不少于两个不同的(逐个字符相同的)段落成功构建的任何作品分配 2 分，依此类推......直到极限 - 对于 N 的文章characters - 当且仅当文章中没有两个相邻的字符在完整作品中也相邻放置时，得分为 N。

挑战在于实现一个能够高效(准确)评分论文的程序。虽然任何(可行的)数据结构来表示完整的作品都是可以接受的——论文以 ASCII 字符串的形式呈现。

考虑了一段时间这个挑逗性的问题后，我得出的结论是它比听起来要难得多。对于长度为 N 的文章，天真的解决方案涉及对完整作品的 2**(N-1) 次遍历 - 这效率太低而不实用。

虽然，很明显，我对建议的解决方案很感兴趣 - 我也很感激任何处理此问题或任何类似问题的文献的指针。

澄清

也许一些示例(范围更短的字符串)将有助于阐明“论文”的“分数”？

假设莎士比亚的全集被删节为:

"The quick brown fox jumps over the lazy dog."

作文得分 1 包括“自己的狐狸跳”和“快速眉毛”。散文“jogging”打6分(尽管很短)，因为它不能用少于6段的全集来表示……它可以被分割成6个串，都是全集的子串，如下:” [运行]”。注意与原始问题相比，为这个简短的例子建立分数是微不足道的 - 因为在这个例子中“完整的作品” - 几乎没有重复。

希望这个示例分割有助于阐明完整作品中的 2*(N-1) 个子串搜索。如果我们考虑分段，文章中 N 个字符之间的 (N-1) 个间隙可能是段之间的间隙，也可能不是……导致 ~ 2*(N-1) 个子字符串搜索测试每个分割假设的完整作品。

(N)DFA 将是一个很好的解决方案 - 如果它可行的话。我可以看到如何构建以这种方式解决“子字符串匹配”但不评分的东西。至少在表面上，用于评分的状态空间似乎太大了(对于莎士比亚的任何实质性完整作品。)我欢迎任何破坏我假设的解释，即 (N)DFA 太大而不实用计算/存储。

最佳答案

剽窃检测的一般方法是将学生的文本附加到源文本中，并用两者中均未出现的字符分隔，然后构建后缀树或后缀数组。这将使您能够在线性时间内找到学生文本中也出现在源文本中的大子字符串。

我发现很难说得更具体，因为我不明白你对分数的解释 - 上面的方法可以很好地找到学生作品中最长的一段，这是一个精确的引用，但我不明白你的N - 是构建学生文本所需的源文本不同部分的数量吗？

如果是这样，可能有动态规划的方法。在第 k 步，我们计算出构建学生文本的前 k 个字符所需的最少数量的源文本不同部分。使用仅从源文本或其他方式构建的后缀数组，我们找到源文本与学生文本的字符 x..k 之间的最长匹配，其中 x 当然尽可能小。那么构建学生文本的前 k 个字符所需的源文本部分的最少数量是构建 1..x-1(我们已经计算出的)加 1 所需的最少部分。通过为 k=1 运行此过程..学生文本的长度，我们发现重建整个源文本所需的源文本部分最少。

(或者您可以在 StackOverflow 中搜索学生的课文，因为现在学生除了在 StackOverflow 上发布他们的问题之外什么都不做 :-))。

我声称，沿着目标字符串从左到右反复移动，使用后缀数组或树来随时查找最长的匹配项，将会从生成目标字符串的源文本中找到最少数量的不同字符串。我最初是通过寻找动态规划递归发现的，但正如 Evgeny Kluev 所指出的，这实际上是一个贪心算法，所以让我们尝试用典型的贪心算法证明来证明这一点。

假设不是。然后有一个解决方案比你每次跑完当前比赛结束时都去最长的比赛得到的解决方案更好。从左到右比较两个建议的解决方案，并在非贪婪解决方案与贪婪解决方案不同时寻找第一次。如果有多个非贪婪解决方案比贪婪解决方案做得更好，我将要求我们在最后可能的时刻考虑与贪婪解决方案不同的解决方案。

如果非贪婪的解决方案比贪婪的解决方案做得更好，并且没有非贪婪的解决方案做得更好并且后来有所不同，那么非贪婪的解决方案必须找到它，作为破坏的返回它比贪婪解决方案更早结束第一场比赛，它可以比贪婪解决方案更长时间地进行下一场比赛。如果不能，它可能以某种方式比贪心解决方案做得更好，但不是在本节中，这意味着有一个更好的非贪婪解决方案，它坚持贪婪解决方案，直到我们的非贪婪解决方案的第二个匹配部分结束，这违背了我们的要求，即我们希望非贪婪的更好的解决方案尽可能长时间地坚持贪婪的解决方案。所以我们必须假设，作为提前中断第一场比赛的返回，非贪婪解决方案可以更长时间地进行第二场比赛。但这行不通，因为当贪婪解决方案最终必须完成其第一个匹配项时，它可以跳转到非贪婪解决方案正在使用的匹配文本的同一部分，只是比非贪婪解决方案晚进入该部分-贪心解决方案确实如此，但至少与非贪婪解决方案一样长。所以不存在比贪心解更好的非贪心解，贪心解是最优的。

关于string - 寻求字符串处理挑战的算法(或指向文献的指针)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21617956/

string - 寻求字符串处理挑战的算法(或指向文献的指针)

上一篇：基于时间的算法评分

下一篇：python - 子集总和为 `itertools.combinations`