binary-data - 在非语言文本文件中搜索最常出现的模式

标签 binary-data

我不完全确定这个答案属于这里,但我希望在 ascii 文件中找到模式。

文件本身由字母数字字符组成,我只想检查文件中的重复模式,不考虑分隔符和自然语言单词或含义,只获取最常用的重复序列。

我似乎没有找到任何已经开发的程序可以做到这一点(因为所有程序似乎都可以使用单词,而不仅仅是字符集)。你知道任何可以做到这一点的应用程序吗?

如果没有这样的应用程序,您会如何建议我编写代码?

最佳答案

我不知道有任何现有的程序可以做到这一点,所以我只能推荐编码解决方案。您将不得不稍微修改一下 Trie在它的叶子上有发生次数的计数器。然后任务变得微不足道:从所有叶子中找到一个具有最大计数器的叶子;从根到此叶子的路径将是您搜索的子序列(模式)。

也仅供引用:Longest common substring problem

(我知道这个问题是针对 SO 的,我的回答必须是评论,但我只是没有足够的声誉来发表评论。)

关于binary-data - 在非语言文本文件中搜索最常出现的模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5076247/

相关文章:

database - 如何将视频存储在 PostgreSQL 数据库中?

c# - 从文件中读取字符串使用哪种编码?

database - 用于存储二进制数据的键/值数据库

php - Linux cURL 与 PHP cURL - POST 请求

python - 使用 Python 3 编码和解码二进制数据以包含到 JSON 中

java - 使用Java以二进制格式将图像存储在数据库中

javascript - 使用 jquery AJAX PDF 下载

powershell - 使用PowerShell查询AD以匹配二进制数据

binary - 您将如何对从设备中提取的一组二进制数据进行逆向工程?

c - 为什么 "double"表示为整数?