我想我问过专家 - 抱歉,这更像是一个代码审查问题,但我在下面添加了它。以下代码是否可以获取最接近第一行的 top_n 个案例 - 忽略第一行:
example_df <- data.frame(
gender = c("male", "male", "female", "male")
, age = c(30, 30.1, 20, 31)
)
example_df
gower_dist <- as.matrix(daisy(example_df, metric = "gower"))
gower_dist
top_n <- 2
# select top 2 closest row indices of row 1
example_df[head(order(gower_dist[-1, 1]), top_n) + 1,]
我也试图让它在第 3 行工作,但这不起作用:
example_df[head(order(gower_dist[-3, 3]), top_n) + 1,]
如有任何反馈,我们将不胜感激。谢谢!
附言:
距离度量:
1 2 3 4
1 0.000000000 0.004545455 0.9545455 0.04545455
2 0.004545455 0.000000000 0.9590909 0.04090909
3 0.954545455 0.959090909 0.0000000 1.00000000
4 0.045454545 0.040909091 1.0000000 0.00000000
最佳答案
将 diag
设置为 NA
将使子集化更容易。
diag(gower_dist) <- NA
example_df[head(order(gower_dist[, 1]), top_n),]
# gender age
#2 male 30.1
#4 male 31.0
example_df[head(order(gower_dist[, 3]), top_n),]
# gender age
#1 male 30.0
#2 male 30.1
您使用 gower_dist[-3, 3]
删除了第 3 列,但 order
仍然为您提供从 1 到 3 的值,而不是 1,2 和 4。
关于r - 获取数据框中最接近第一行的 top_n 行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59378274/