我有这个包含两列的数据库,其中列出了基因代码,然后列出了生物通路。在数据库中,一些基因代码与多种生物途径相关联:
A B
396139 mesonephros development
396139 camera-type eye development
396139 Sertoli celldevelopment
我试图摆脱这些重复,同时将每个生物学功能移至新列:
A B C D
396139 mesonephros development camera-type eye development Sertoli celldevelopment
我已经在 Excel 中尝试了一些宏,但没有成功地做出任何有建设性的事情。我对 R 也有点陌生,所以我不知道从哪里开始格式化它。任何对这两种软件的帮助都将不胜感激。
这个问题与声称的重复问题不同,因为当我要求它们分开时,他们试图合并列。这个问题的答案也更简单,不需要外部包,因此值得分开。
我们可以使用data.table
。我们将“data.frame”转换为“data.table”(setDT(df1)
),按“Gened.Code”分组,我们粘贴
“Organ”中的元素.Developmental.Effect' 在一起。 toString
是 paste(., collapse=', ')
的包装器。
library(data.table)
setDT(df1)[, list(Col= toString(Organ.Developmental.Effect)) , Gene.Code]
# Gene.Code
#1: 11
#2: 19
#3: 37
#4: 674
#5: 2033
#6: 2-Sep
#7: 5-Sep
#8: 396139
# Col
#1: eye photoreceptor cell differentiation
#2: eye photoreceptor cell differentiation
#3: eye photoreceptor cell differentiation
#4: larval salivary gland morphogenesis
#5: compound eye morphogenesis
#6: imaginal disc development
#7: imaginal disc development
#8: metanephros development, mesonephros development, camera-type eye development