r - 如何计算R中data.table中出现的组合

标签 r data.table summarization

我有两个 data.tables。我想计算与另一个表中的表的组合匹配的行数。我已经检查了 data.table 文档,但没有找到我的答案。我正在使用 data.table 1.9.2。

DT1 <- data.table(a=c(3,2), b=c(8,3))
DT2 <- data.table(w=c(3,3,3,2,3), x=c(8,8,8,3,7), z=c(2,6,7,2,2))
DT1
#    a b
# 1: 3 8
# 2: 2 3

DT2
#    w x z
# 1: 3 8 2
# 2: 3 8 6
# 3: 3 8 7
# 4: 2 3 2
# 5: 3 7 2

现在我想计算DT2中(3, 8)对和(2, 3)对的数量。
setkey(DT2, w, x)
nrow(DT2[J(3, 8), nomatch=0])
# [1] 3    ## OK !

nrow(DT2[J(2, 3), nomatch=0])
# [1] 1    ## OK !

DT1[,count_combination_in_dt2 := nrow(DT2[J(a, b), nomatch=0])]
DT1
#    a b count_combination_in_dt2
# 1: 3 8                        4 ## not ok.
# 2: 2 3                        4 ## not ok.

预期结果:
#    a b count_combination_in_dt2
# 1: 3 8                        3 
# 2: 2 3                        1 

最佳答案

setkey(DT2, w, x)

DT2[DT1, .N, by = .EACHI]
#   w x N
#1: 3 8 3
#2: 2 3 1

# In versions <= 1.9.2, use DT2[DT1, .N] instead

以上只是简单地进行合并并计算由 i-expression 定义的每个组的行数,因此 by = .EACHI .

关于r - 如何计算R中data.table中出现的组合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25869543/

相关文章:

r - RcppArmadillo 中的函数通过引用传递

python - 为什么邻接矩阵的特征值实际上是Textrank中的句子分数

text - 关于 "AUTOMATIC TEXT SUMMARIZER (lingustic based)"

r - 根据动态依赖的两个条件过滤

r - data.table 上的数学运算(在 R 中)

r - 通过采样连接数据表

r - R语言文本摘要

R:计算特殊定义的Skew-T分布的概率密度函数

r - 平均值,忽略零和特定变量

返回值的所有可能组合