python - 获得两个全文文档之间相似度度量的方法？

例如，假设我有三个文本文档(让 3 个随机生成的文本)。

文档 1:

"Whole every miles as tiled at seven or. Wished he entire esteem mr oh by. Possible bed you pleasure civility boy elegance ham. He prevent request by if in pleased. Picture too and concern has was comfort. Ten difficult resembled eagerness nor. Same park bore on be...."

文档2:

"Style too own civil out along. Perfectly offending attempted add arranging age gentleman concluded. Get who uncommonly our expression ten increasing considered occasional travelling. Ever read tell year give may men call its. Piqued son turned fat income played end wicket..."

如果我想在 python 中(使用库)获得一个衡量这两个文档与第三个文档有多相似的指标(换句话说，这两个文档中哪一个与另一个文档更相似)第三个)，最好的方法是什么？

编辑:我观察到他们通过将单个句子与其他句子进行比较来回答其他问题，但我对此不感兴趣，因为我想比较全文(由相关句子组成)与另一个全文进行比较，并获得一个数字(例如，该数字可能大于使用与目标文档不太相似的不同文档获得的另一个比较结果)

最佳答案

这个问题没有简单的答案。因为相似性会表现得更好或更差，具体取决于您想要执行的特定任务。

话虽如此，您确实有几个关于比较文本 block 的选项。 This post对计算句子相似度的几种不同方法进行比较和排名，然后您可以将其聚合以执行完整的文档相似度。如何聚合这个？还取决于您的特定任务。一种简单但通常效果良好的方法是计算 2 个(或更多)文档的平均句子相似度。

此主题的其他有用链接包括:

Introduction to Information Retrieval (免费书籍)
Doc2Vec (来自 gensim，用于段落嵌入，这可能非常适合您的情况)

关于python - 获得两个全文文档之间相似度度量的方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59991226/

python - 获得两个全文文档之间相似度度量的方法？

上一篇：python - Pandas value_counts 返回同一值的多行

下一篇：python - Jupyter Notebook无法识别pandas库: Python