我有两个大数据框,a
和 b
其中identical(a,b)
是 TRUE
, 原样 all.equal(a,b)
,但是 identical(digest(a),digest(b))
是 FALSE
.什么可能导致这种情况?
更重要的是,我试图通过对成串的行应用摘要来更深入地挖掘。令人难以置信的是,至少对我来说,子帧的摘要值一直到数据帧的最后一行都是一致的。
下面是一系列比较:
> identical(a, b)
[1] TRUE
> all.equal(a, b)
[1] TRUE
> digest(a)
[1] "cac56b06078733b6fb520442e5482684"
> digest(b)
[1] "fdd5ab78ca961982d195f800e3cf60af"
> digest(a[1:nrow(a),])
[1] "e44f906723405756509a6b17b5949d1a"
> digest(b[1:nrow(b),])
[1] "e44f906723405756509a6b17b5949d1a"
我能想到的每种方法都表明这两个对象是相同的,但它们的摘要值不同。是否还有其他数据帧会产生这种差异?
有关更多详细信息:对象大约为 10M 行 x 12 列。这是
str()
的输出:'data.frame': 10056987 obs. of 12 variables:
$ V1 : num 1 11 21 31 41 61 71 81 91 101 ...
$ V2 : num 1 1 1 1 1 1 1 1 1 1 ...
$ V3 : num 2 3 2 3 4 5 2 4 2 4 ...
$ V4 : num 1 1 1 1 1 1 1 1 1 1 ...
$ V5 : num 1.8 2.29 1.94 2.81 3.06 ...
$ V6 : num 0.0653 0.0476 0.0324 0.034 0.0257 ...
$ V7 : num 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 ...
$ V8 : num 0.00653 0.00476 0.00324 0.0034 0.00257 ...
$ V9 : num 1.8 2.3 1.94 2.81 3.06 ...
$ V10: num 0.1957 0.7021 0.0604 0.1866 0.9371 ...
$ V11: num 1704 1554 1409 1059 1003 ...
$ V12: num 23309 23309 23309 23309 23309 ...
> print(object.size(a), units = "Mb")
920.7 Mb
更新 1:一时兴起,我将这些转换为矩阵。摘要是一样的。
> aM = as.matrix(a)
> bM= as.matrix(b)
> identical(aM,bM)
[1] TRUE
> digest(aM)
[1] "c5147d459ba385ca8f30dcd43760fc90"
> digest(bM)
[1] "c5147d459ba385ca8f30dcd43760fc90"
然后我尝试转换回数据帧,并且摘要值相等(并且等于
a
的先前值)。> aMF = as.data.frame(aM)
> bMF = as.data.frame(bM)
> digest(aMF)
[1] "cac56b06078733b6fb520442e5482684"
> digest(bMF)
[1] "cac56b06078733b6fb520442e5482684"
所以,
b
看起来像坏男孩,有着丰富多彩的过去。 b
来自一个更大的数据框,比如 B
.我只取了B
的列出现在 a
并检查它们是否相等。嗯,他们是平等的,但有不同的摘要。我转换了列名(从“InformativeColumnName1”到“V1”等),只是为了避免可能出现的任何问题 - 尽管 all.equal
和 identical
倾向于指出列名何时不同。因为我正在开发两个不同的程序并且不能同时访问
a
和 b
,对我来说最容易使用摘要值来检查计算。但是,我从数据框中提取列然后应用 digest()
的方式似乎有些奇怪。到它。答案:
事实证明,令我惊讶的是(沮丧、恐怖、尴尬,应有尽有),
identical
对属性非常宽容。我以为只有 all.equal
对属性宽容。这是通过 Tommy 的建议发现的
identical(d1, d2, attrib.as.set=FALSE)
.运行 attributes(a)
这是一个糟糕的主意:在 Ctrl-C 可以中断它之前,行名称的泛滥需要一段时间。这是 names(attributes())
的输出:> names(attributes(a))
[1] "names" "row.names" "class"
> names(attributes(b))
[1] "names" "class" "row.names"
它们的顺序不同!感谢
digest()
因为对我是直接的。更新
为了帮助其他人解决这个问题,似乎只需重新排列属性就足以获得相同的哈希值。由于修改属性顺序对我来说是新的,这可能会破坏某些东西,但它适用于我的情况。请注意,如果对象很大,则有点耗时;我不知道这样做的更快方法。 (我也希望转向使用矩阵或数据表而不是数据框,这可能是避免使用数据框的另一个诱因。)
tmpA0 = attributes(a)
tmpA1 = tmpA0[sort(names(tmpA0))]
a2 = a
attributes(a2) = tmpA1
tmpB0 = attributes(b)
tmpB1 = tmpB0[sort(names(tmpB0))]
b2 = b
attributes(b2) = tmpB1
digest(a2) # e04e624692d82353479efbd713ec03f6
digest(b2) # e04e624692d82353479efbd713ec03f6
identical(b,b2, attrib.as.set = FALSE) # FALSE
identical(b,b2, attrib.as.set = TRUE) # TRUE
identical(a2,b2, attrib.as.set = FALSE) # TRUE
最佳答案
没有实际的 data.frames 当然很难知道,但一个区别可能是 订购 的属性。 identical
默认情况下忽略它,但设置 attrib.as.set=FALSE
可以改变:
d1 <- structure(1, foo=1, bar=2)
d2 <- structure(1, bar=2, foo=1)
identical(d1, d2) # TRUE
identical(d1, d2, attrib.as.set=FALSE) # FALSE
关于r - R中具有不同摘要的相同数据帧?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7585316/