algorithm - 增量文档相似度算法

标签 algorithm bigdata computer-science

我正在尝试计算大量动态文本文档之间的相似度。对于静态集,余弦相似度 + tf-idf 之类的东西会很好用。但是,我正在寻找一种方案,允许我添加新文档而无需重新计算整个相似性集。是否存在这样的算法?

最佳答案

您似乎接近解决方案。只需存储 f(document) 结果的每个实例,然后合并结果。

映射每个文档的词频并存储:

d0:
    "the" : 70,
    "quick" : 22,
    "fox" : 1

d1:
    "the" : 42,
    "lazy" : 2,
    "dog" : 13

合并文档并在聚合上进行评估:

d0_d1:
    "the" : 112.
    "lazy" : 2,
    "dog" : 13,
    "quick" : 22,
    "fox" : 1

tf_idf(d0_d1)

关于algorithm - 增量文档相似度算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18089364/

相关文章:

hadoop - Spark 1.0.2(也是 1.1.0)卡在一个分区上

python - 识别录制声音中的音符 - 第 2 部分 - Python

c - fgets 与 sscanf 结合

algorithm - 在字典中查找作为给定字符串子序列的最长单词(Google TechDevGuide)

python - 将两个 float 写入常规 txt 的正确方法

bigdata - Apache Flink是如何实现迭代的?

algorithm - 确定浮点平方根

c++ - 有助于学习 C++ 的酷 API?

algorithm - 图中成本取决于遍历历史的最短路径

algorithm - 如何找出至少有 m*k*(k-1)/n*(n-1) 条边的 k 个节点的诱导子图