r - 根据组属性创建虚拟变量

标签 r dplyr dummy-variable

我的数据看起来像这样:

ID   CSEX    MID   CMOB   CYRB   1ST   2ND       
1    1       1     1      1991   0     1
2    1       1     7      1989   1     0
3    2       2     1      1985   1     0
4    2       2     11     1985   0     1
5    1       2     9      1994   0     0
6    2       3     4      1992   1     0
7    2       4     2      1992   0     1
8    1       4     10     1983   1     0

ID = child ID,CSEX = child 性别,MID = 母亲 ID,CMOB = 出生月份,CYRB = 出生年份,1st = 第一个出生的假人,2nd = 第二个出生的假人。

我正在尝试创建一个虚拟变量,如果一个家庭中出生的前两个 child (即具有相同的 MID)是同一性别,则该变量的值为 1。

我试过了

 Identifiers_age <- Identifiers_age %>% group_by(MPUBID) %>% 
    mutate(samesex = 
            as.numeric(((first == 1 & CSEX == 1) & (second == 1 & CSEX == 1)) 
                       | (first == 1 & CSEX == 2) & (second == 1 & CSEX ==2))))

但显然,这仍然只检查每个单独 ID 的条件,而不是通过 MID 检查,因此返回一个始终采用值 = 0 的虚拟值。

谢谢

编辑预期输出:

ID   CSEX    MID   CMOB   CYRB   1ST   2ND   SAMESEX 
1    1       1     1      1991   0     1     1
2    1       1     7      1989   1     0     1
3    2       2     1      1985   1     0     1
4    2       2     11     1985   0     1     1
5    1       2     9      1994   0     0     1
6    2       3     4      1992   1     0     0
7    2       4     2      1992   0     1     0 
8    1       4     10     1983   1     0     0

即对于前两个 child 性别相同的家庭中的任何个人,虚拟 SAMESEX = 1

Edit2(我之前展示的只是我制作的一个示例,对于真实的数据集调用结构给出):

     CPUBID MPUBID  CSEX  CMOB  CYRB  first second 
     <int>  <int> <int> <int> <int>   <dbl>  <dbl>   
1     201      2     2     3  1993     1      0   
2     202      2     2    11  1994     0      1      
3     301      3     2     6  1981     1      0       
4     302      3     2    10  1983     0      1      
5     303      3     2     4  1986     0      0       
6     401      4     1     8  1980     1      0       
7     403      4     2     3  1997     0      1       
8     801      8     2     3  1976     1      0       
9     802      8     1     5  1979     0      1       
10    803      8     2     9  1982     0      0       

和str:

 Classes ‘grouped_df’, ‘tbl_df’, ‘tbl’ and 'data.frame': 11512 obs. of  7 variables:
 $ CPUBID : int  201 202 301 302 303 401 403 801 802 803 ...
 $ MPUBID : int  2 2 3 3 3 4 4 8 8 8 ...
 $ CSEX   : int  2 2 2 2 2 1 2 2 1 2 ...
 $ CMOB   : int  3 11 6 10 4 8 3 3 5 9 ...
 $ CYRB   : int  1993 1994 1981 1983 1986 1980 1997 1976 1979 1982 ...
 $ first  : num  1 0 1 0 0 1 0 1 0 0 ...
 $ second : num  0 1 0 1 0 0 1 0 1 0 ...

最佳答案

这可能有帮助

library(dplyr)
Identifiers_age %>%
          group_by(MID) %>% 
          mutate(ind1 = CSEX *`1ST`,
                 ind2 = CSEX *`2ND`, 
                 SAMESEX = as.integer(n_distinct(c(ind1[ind1!=0], 
                             ind2[ind2!=0]))==1 &  sum(ind1) >0 & sum(ind2) > 0)) %>% 
                select(-ind1, -ind2)
#     ID  CSEX   MID  CMOB  CYRB   1ST   2ND SAMESEX
#  <int> <int> <int> <int> <int> <int> <int>   <int>
#1     1     1     1     1  1991     0     1       1
#2     2     1     1     7  1989     1     0       1
#3     3     2     2     1  1985     1     0       1
#4     4     2     2    11  1985     0     1       1
#5     5     1     2     9  1994     0     0       1
#6     6     2     3     4  1992     1     0       0
#7     7     2     4     2  1992     0     1       0
#8     8     1     4    10  1983     1     0       0

或者它可以变得稍微紧凑

Identifiers_age %>%
         group_by(MID) %>%
         mutate(SAMESEX = as.integer(n_distinct(c(CSEX * NA^!`1ST`, CSEX * NA^!`2ND`), 
                        na.rm = TRUE)==1 & sum(`1ST`) > 0 & sum(`2ND`) > 0))

数据

Identifiers_age <- structure(list(ID = 1:8, CSEX = c(1L, 1L, 2L, 2L, 1L, 
 2L, 2L, 
 1L), MID = c(1L, 1L, 2L, 2L, 2L, 3L, 4L, 4L), CMOB = c(1L, 7L, 
 1L, 11L, 9L, 4L, 2L, 10L), CYRB = c(1991L, 1989L, 1985L, 1985L, 
 1994L, 1992L, 1992L, 1983L), `1ST` = c(0L, 1L, 1L, 0L, 0L, 1L, 
 0L, 1L), `2ND` = c(1L, 0L, 0L, 1L, 0L, 0L, 1L, 0L)), .Names = c("ID", 
 "CSEX", "MID", "CMOB", "CYRB", "1ST", "2ND"), class = "data.frame",
 row.names = c(NA, -8L))

关于r - 根据组属性创建虚拟变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38806132/

相关文章:

r - 将所有列名称传递给 mutate() 内的 pmap()

r - 在 R 中创建虚拟变量的简单方法

python - 解决python中的pd.get_dummies功能障碍

r - 计算每组条件的行数

r - 添加列(如果不存在)

r - 列/变量的虚拟化

r - 按 r 中 data.table 中的列和行分组

r - 如何为在格子中使用 splom 绘制的相关系数添加 p 值?

r - 在 R 中创建多个折线图

r - 通过使用 group_split 和 group_map 对变量进行分组,使用 tabyl 进行制表