r - strsplit 融化的数据集

标签 r dataframe reshape

我正在尝试以大型 CSV 文件格式绘制基因测试的结果图。 CSV 中的每个 x,y 位置都是一个数字分数,其中大部分为零。我只对非零数据感兴趣。此外,每个 X 和 Y 标题的名称都有我想用来进一步对数据进行子集化的附加信息。我想做的是融化数据,去除所有具有零值的行,然后对融化的数据进行字符串拆分,以提供可用于转换的额外列。但是,当我尝试对融化的数据进行字符串拆分时遇到了问题。以下是命令和一些示例数据:

test <- read.csv("~/Documents/Bioinformatics/Python_Scripts/test.csv", as.is=TRUE)
smalltest <- test[1:10, 1:4]
small.melt <- melt(smalltest)
head(smalltest)
head(small.melt)

这导致以下数据:

head(small.test)
BlastCompare Triostin_A_2 Triostin_A_1 Myxochelin_2 Myxochelin_1 
HA9WEQA05FUABT_497_TxR_K2            0            0      105          120 
G9VUOJT08JA64I_426_TxC_N3            0            0  0            0 
HA9WEQA06G2SFP_457_TxC_J4            0            0     0            0 
HA9WEQA05GCP8Q_506_TxR_J7          150          150    0            0 
HA9WEQA07HU6MW_421_TxR_P7            0            0    0            0 
G9VUOJT05FST3W_399_TxR_J4            0            0    255          240

头(小.融化)

BlastCompare     variable value 
HA9WEQA05FUABT_497_TxR_K2Triostin_A_2     0  
G9VUOJT08JA64I_426_TxC_N3 Triostin_A_2     0 
HA9WEQA06G2SFP_457_TxC_J4 Triostin_A_2     0 
HA9WEQA05GCP8Q_506_TxR_J7 Triostin_A_2   150 
HA9WEQA07HU6MW_421_TxR_P7 Triostin_A_2     0 
G9VUOJT05FST3W_399_TxR_J4 Triostin_A_2     0

然而,当我尝试在 $variable 列上进行字符串拆分时,会得到以下结果:

small.melt$name <- sapply(strsplit(small.melt$variable, "_") , "[", 1)
Error in strsplit(small.melt$variable, "_") : non-character argument

有什么想法吗?或者如何解决这个问题?

谢谢 扎克cp

最佳答案

问题是 small.melt$variable 属于 factor 类,而 strsplit() 需要一个 character 向量作为第一个参数。 (它在上面和下面的精简示例中返回的错误消息几乎告诉您):

f <- as.factor(c("a_b", "a_c"))
strsplit(f, "_")
Error in strsplit(f, "_") : non-character argument

要使 strsplit() 满意,只需使用 as.character() 将因子转换为字符向量:

sapply(strsplit(as.character(small.melt$variable), "_") , "[", 1)
#  [1] "Triostin"   "Triostin"   "Triostin"   "Triostin"   "Triostin"  
#  [6] "Triostin"   "Triostin"   "Triostin"   "Triostin"   "Triostin"  
# [11] "Triostin"   "Triostin"   "Myxochelin" "Myxochelin" "Myxochelin"
# [16] "Myxochelin" "Myxochelin" "Myxochelin" "Myxochelin" "Myxochelin"
# [21] "Myxochelin" "Myxochelin" "Myxochelin" "Myxochelin"

关于r - strsplit 融化的数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8685300/

相关文章:

sql - 如何在 RPostgreSQL 中使用参数(插入数据)

r - 计算每行唯一值的数量

python - 确定 pandas 数据框中另一列的列最大值

python - NumPy 数组的反向堆叠操作

从长数据格式 reshape 为宽数据格式并匹配 R 中的开始到结束日期对

r - 从稀疏表构建网络边缘表

r - 向多个箱线图添加点

R 绘图图例 : Reduce space between legend columns

python - 如何将 Pandas DataFrame 行迭代的结果存储在新列中?

python - 如何根据条件在 Pandas 中构建新列(新列应输出字符串)