python - 获得两个全文文档之间相似度度量的方法?

标签 python nlp artificial-intelligence topic-modeling

例如,假设我有三个文本文档(让 3 个随机生成的文本)。

文档 1:

"Whole every miles as tiled at seven or. Wished he entire esteem mr oh by. Possible bed you pleasure civility boy elegance ham. He prevent request by if in pleased. Picture too and concern has was comfort. Ten difficult resembled eagerness nor. Same park bore on be...."

文档2:

"Style too own civil out along. Perfectly offending attempted add arranging age gentleman concluded. Get who uncommonly our expression ten increasing considered occasional travelling. Ever read tell year give may men call its. Piqued son turned fat income played end wicket..."

如果我想在 python 中(使用库)获得一个衡量这两个文档与第三个文档有多相似的指标(换句话说,这两个文档中哪一个与另一个文档更相似)第三个),最好的方法是什么?

编辑:我观察到他们通过将单个句子与其他句子进行比较来回答其他问题,但我对此不感兴趣,因为我想比较全文(由相关句子组成)与另一个全文进行比较,并获得一个数字(例如,该数字可能大于使用与目标文档不太相似的不同文档获得的另一个比较结果)

最佳答案

这个问题没有简单的答案。因为相似性会表现得更好或更差,具体取决于您想要执行的特定任务。

话虽如此,您确实有几个关于比较文本 block 的选项。 This post对计算句子相似度的几种不同方法进行比较和排名,然后您可以将其聚合以执行完整的文档相似度。如何聚合这个?还取决于您的特定任务。一种简单但通常效果良好的方法是计算 2 个(或更多)文档的平均句子相似度。

此主题的其他有用链接包括:

关于python - 获得两个全文文档之间相似度度量的方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59991226/

相关文章:

python - 将 Numpy 数组中的值替换为第二个 Numpy 数组中的值,给定条件

python - 我需要通过将 Python 字典存储在硬盘驱动器而不是 RAM 中来释放 RAM。是否可以?

python - 主题或标签建议算法

nlp - 如何获得与在线演示完全相同的依赖解析输出?

algorithm - 使用 A*(A-Star) 搜索解决数独难题

python - Django 管理中的对象级权限

python - 断言函数没有传入参数被调用

nlp - 使用斯坦福 NLP 检测语言

batch-file - 让批处理程序学习

python - 为什么我的元组值会改变 (Python)?