我必须找到两条记录之间的距离。每条记录都是多个字段的向量。其中一些字段是数字字段。其他的是字符串。我怎样才能得出一个单一的距离值。
我可以单独计算每个字符串变量的字符串距离和数字变量的欧几里得距离。在这种情况下,如何组合这两个距离值
最佳答案
这实际上取决于您想要做什么。例如,与其查找地址字符串之间的距离,不如花时间将它们转换为地理位置并测量它们的距离。
查找名称字符串之间的距离实际上没有意义,但您可以找到它们的字符串距离并使用一些权重,这样它们就不会使数值无效。
本质上,您需要对文本数据进行某种类型的特征提取预处理。
关于machine-learning - 如何找到两个向量之间的距离,其中一些字段是字符串(名称、地址等)而其他字段是数字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60001781/