r - r 的显着差异

标签 r statistics significance

这就是我的问题:

我有一堆关于声音制作以及单词的重点所在的数据。我想做的是确定重读音节和非重读音节的发音之间的差异是否显着。问题是,当我尝试使用 cor() 函数时,数据集的长度不同。我有大约 500 个重读音节,但只有 400 个非重读音节。我对 r 很陌生,但这是我尝试过的代码:

data <- read.csv('D:/blaaah/Stressed.csv', header=TRUE)
var1 <- data$intdiff
data <- read.csv('D:/blaaah/Unstressed.csv', header=TRUE)
var2 <- data$intdiff
cor(var1, var2)

当然,我收到一个错误,因为数据集的长度不同。那么如何在不使它们具有相同长度的情况下检查它们之间的重要性?

非常感谢!

附注如果我的问题不清楚就问吧。恐怕有时我认为每个人都知道我在做什么......

最佳答案

如果您希望 var1var2 之间存在关系,例如,如果您希望在如果 var1 中的相应项较大,则 var2 也较大。当数据集长度不同时会遇到困难,因为一旦超过较短数据集的末尾,就没有相应的项目可供比较。

我认为,在这种情况下,比较两个数据集以确定它们的均值是否不同可能对您更有用。为此,您需要使用 t 检验,如 R, here 中的示例所述。 。您还想确认使用 t 检验的假设对于这种情况是有效的,例如请参阅here .

关于r - r 的显着差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14288427/

相关文章:

python - LCG 是否像我的代码所示的那样严重未能通过 Kolmogorov-Smirnov 测试?

r - ggplot 中的中位数统计差异

r - 如果另一列中的值 > 0,则创建一个具有逻辑值的新列

python - 估计两个时间序列之间的小时间偏移

rstudent() 到 nnet 对象

r - 创建虚拟变量以进行双向方差分析

python - 如何检测时间序列数据的变化是否不再显着?

apache-spark - 我可以在 pyspark 中提取 Logistic 回归系数的有效值吗

r - 尝试为包创建函数,该函数在存在分类变量时自动绘制给定模型的变量响应

r - 安装 r-packages 时找不到 gfortran