我不完全确定这个答案属于这里,但我希望在 ascii 文件中找到模式。
文件本身由字母数字字符组成,我只想检查文件中的重复模式,不考虑分隔符和自然语言单词或含义,只获取最常用的重复序列。
我似乎没有找到任何已经开发的程序可以做到这一点(因为所有程序似乎都可以使用单词,而不仅仅是字符集)。你知道任何可以做到这一点的应用程序吗?
如果没有这样的应用程序,您会如何建议我编写代码?
最佳答案
我不知道有任何现有的程序可以做到这一点,所以我只能推荐编码解决方案。您将不得不稍微修改一下 Trie在它的叶子上有发生次数的计数器。然后任务变得微不足道:从所有叶子中找到一个具有最大计数器的叶子;从根到此叶子的路径将是您搜索的子序列(模式)。
也仅供引用:Longest common substring problem
(我知道这个问题是针对 SO 的,我的回答必须是评论,但我只是没有足够的声誉来发表评论。)
关于binary-data - 在非语言文本文件中搜索最常出现的模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5076247/