我目前正在寻找一些工具来生成不同形状的数据集,如正方形、圆形、矩形等,并带有用于聚类分析的异常值。
你们中的任何人都可以推荐一个好的数据集生成器来进行聚类分析吗?
有没有办法用 R 之类的语言生成这样的数据集?
最佳答案
我会创建一个形状并提取边界坐标。您可以使用 splancs
用随机点填充形状包裹。
这是我的一个程序的一小段:
# First we create a circle, into which uniform random points will be generated (kudos to Barry Rowlingson, r-sig-geo).
circle <- function(x = x, y = y, r = radius, n = n.faces){
t <- seq(from = 0, to = 2 * pi, length = n + 1)[-1]
t <- cbind(x = x + r * sin(t), y = y+ r * cos(t))
t <- rbind(t, t[1,])
return(t)
}
csr(circle(0, 0, 100, 30), 1000)
随意添加异常值。解决这个问题的一种方法是采样不同的形状并以不同的方式连接它们。
关于r - 如何使用异常值生成不同形状(例如正方形、圆形、矩形)的双变量数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4722290/