<分区>
问题:
我有大约 20 个 ASCII 文本文件,每个文件的大小都小于 10^9 字节。给出了另一个 ASCII 文本文件(比如 FOO)。程序是将 FOO 的内容与给定的 20 个文件进行策略性匹配,并打印最接近的匹配文件的名称。 FOO 的内容可能仅部分匹配。
由于文件太大,我想知道:
1.如何使用Information Retrieval(因为我对IR了解不多)
2.我应该使用哪种数据结构来存储这些信息
3.实现它的最佳算法是什么。
我知道我问的太多了,但我真的被这个问题困住了,无法找到解决方法。任何帮助将不胜感激。谢谢!