r - r 中两个表的 PIL 逊相关系数

标签 r dataframe statistics bioinformatics biomart

我有以下两个数据集:

df <- read.table(text =
                   "Human_Gene_Name hsapiens    mmusculus   ggallus celegans    dmelanogaster   cintestinalis   trubripes   xtropicalis mmulatta
A1CF    5.634789603 4.787491743 3.688879454 2.079441542 3.931825633 2.772588722 3.871201011 3.044522438 4.094344562
                 AAK1   3.583518938 2.708050201 2.079441542 2.197224577 2.079441542 0.693147181 2.772588722 2.079441542 3.218875825
                 AAMP   3.555348061 3.17805383  2.48490665  1.791759469 2.302585093 0.693147181 2.48490665  1.098612289 2.079441542", header  = T)

ctn_df <- read.table(text = "Species    CTN
                     hsapiens   158
                     mmusculus  85
                     ggallus    67
                     celegans   32
                     dmelanogaster  27
                     cintestinalis  19
                     trubripes  110
                     xtropicalis    82
                     mmulatta   71
                     ", header = T)

“df”中的值代表功能多样性,我想根据物种 CTN 和功能多样性计算每个基因的 PIL 逊相关系数。

有没有一种方法可以根据“ctn_df”中的数据轻松将 CTN 分配给表“df”中的特定物种。

抱歉,如果这是一个简单的问题。

最佳答案

使用 apply 将行数值连续传递给 cor 作为第一个参数,然后用第一列命名相关值:

setNames( apply(df[-1], 1, cor, ctn_df$CTN), df$Human_Gene_Name)
     A1CF      AAK1      AAMP 
0.7556590 0.7834861 0.6829534 

关于r - r 中两个表的 PIL 逊相关系数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50262950/

相关文章:

r - 带有 Gamma 分布的fitdist中的错误

python - 如何更改 iterrows() 的起始索引?

r - 以 5 分钟的间隔聚合列值并创建一个新的数据框

二项式响应的随机森林变量重要性和相关方向

R - 分割数据、回归并将方程应用于新的分割数据集

python - 将 pandas 列中除第一个之外的重复数字替换为 NAN 值

r - 分析 R : Linear, 岭回归中的相关数据,PCR

python - 在 Python 中执行局部标准偏差

r - 在R中将值从函数绑定(bind)到全局环境

r - 如何计算未排序数据集的中位数