python - 计算python中两个向量(词袋)之间的欧氏距离

标签 python math vector

我用字典来表示文章中的字数

例如{"name": 2 , "your": 10, "me", 20} 表示"name"出现两次,"your"出现10次,"me"出现 20 次。

那么,有没有什么好的方法可以计算这些向量的欧式距离呢? 困难在于这些向量的长度不同,有些向量包含某些词,有些则不包含。

我知道我肯定可以编写一个长函数来这样做,只是寻找一种更简单、更聪明的方法。谢谢

编辑: 目标是获取两篇文章之间的相似度并将它们分组

最佳答案

有点像

math.sqrt(sum((a[k] - b[k])**2 for k in a.keys()))

其中 a 和 b 是具有相同键的字典。如果您要比较不同向量对之间的这些值,那么您应该确保每个向量包含完全相同的词,否则您的距离测量将毫无意义。

您可以仅根据交点计算距离:

math.sqrt(sum((a[k] - b[k])**2 for k in set(a.keys()).intersection(set(b.keys()))))

另一种选择是使用联合并将未知值设置为 0

math.sqrt(sum((a.get(k, 0) - b.get(k, 0))**2 for k in set(a.keys()).union(set(b.keys()))))

但您必须仔细考虑您正在计算的实际内容。

关于python - 计算python中两个向量(词袋)之间的欧氏距离,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16713368/

相关文章:

python - 函数 numpy.fft.fftfreq 的含义

python - Scrapy 蜘蛛内存泄漏

Python/Django : Creating a simpler list from values_list()

c++ - STD Bad Alloc 异常

python - 如何可视化用于 kmeans 聚类的 tf-idf 向量的数据点?

wpf - 求两点之间一点的坐标?

javascript - 圆形数组中两个元素之间的最小距离

python - 用于计算设定范围内指数极限的脚本

c++ - 如何强制 vector 不可变?

c++ - 为什么 vector 不循环更新?