我正在尝试尽快确定单个文档与大量文档(n ~= 100 万)中的每一个文档之间的文档相似性。更具体地说,我比较的文件是电子邮件;它们被分组(即,有文件夹或标签),我想确定哪个组最适合新电子邮件。快速的性能至关重要。
我的先验假设是术语向量之间的余弦相似度适用于这个应用程序;请评论这是否是一个很好的使用方法!
我已经考虑了以下提高性能的可能性:
我有几个问题:
谢谢!
最佳答案
使用 Bayesian filtering .提供的链接指的是垃圾邮件过滤,但您可以很容易地将该算法应用于多个类别/标签。
好东西很多SO question about Bayesian filtering , 也。
关于performance - 非常快的文档相似度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2829255/