algorithm - 在给定的 ASCII 文本文件中匹配最接近的文件

标签 algorithm data-structures ascii information-retrieval

<分区>

问题:

我有大约 20 个 ASCII 文本文件,每个文件的大小都小于 10^9 字节。给出了另一个 ASCII 文本文件(比如 FOO)。程序是将 FOO 的内容与给定的 20 个文件进行策略性匹配,并打印最接近的匹配文件的名称。 FOO 的内容可能仅部分匹配。

由于文件太大,我想知道:

1.如何使用Information Retrieval(因为我对IR了解不多)

2.我应该使用哪种数据结构来存储这些信息

3.实现它的最佳算法是什么。

我知道我问的太多了,但我真的被这个问题困住了,无法找到解决方法。任何帮助将不胜感激。谢谢!

最佳答案

所以我假设一个文件包含一些文本。所以我们可以说每个文件都是一个大字符串。现在制作 20 个向量或数组。浏览文件并将每个单词作为向量中的一个元素。现在创建一个大小为 20 的向量来存储每个文件的匹配项现在也为给定的文件创建一个词向量。如果在任何给定索引处找到与这 20 个向量中的任何一个和给定向量的匹配,现在创建一个循环来遍历这些向量。增加匹配存储向量中相应文件的值。最后,匹配存储向量中的最高值将指示具有最佳匹配的文件。

关于algorithm - 在给定的 ASCII 文本文件中匹配最接近的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15841500/

相关文章:

c++ - 如何在 C++ 中使用字符的 ascii 代码创建 std::wstring?

algorithm - 有什么算法可以平衡地将N条线段分割成M条线(N <= M)?

C#序列化数据

algorithm - 聚合 HSL 值

python - 从图中删除节点

c - 反转链表中的最后 5 个节点

c# - 如何将字符串转换为整数表示并将其改回

unicode - NSIS 写入INIStr Unicode

c# - 从管理 UI 控制列表的排序顺序

java - 一段简单代码的时间复杂度