我对此一片空白。
我有两个数据集:
d1 = [(x1,y1), (x2,y2)...]
d2 = [(x1,y1), (x2,y2)...]
我想获得某种类型的统计值,也许是 r 值之类的东西,它可以告诉我 d2
与 d1
的拟合程度。
最佳答案
这取决于这两个向量是什么。您可能想要更具体。
如果它们类似于笛卡尔系统中的 X-Y 坐标,则距离相关性可能是最合适的 ( http://en.wikipedia.org/wiki/Distance_correlation#Alternative_formulation:_Brownian_covariance )。
如果x
值相同,并且d1
在每个x
值下具有预期的y
基于某个模型(即线性模型)并且 d2 具有观察到的 y 值,那么 Pearson 的 r 可能是一个不错的选择 scipy.stats.pearsonr >(http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient)。
如果 d1
和 d2
都是相对频率数据(观察到的 y
值为 x
的事件计数) ,那么某种类型的拟合优度检验可能是正确的方向。 scipy.stats.chisquare
、scipy.stats.chi2_contingency
、scipy.stats.ks_2samp
等等。
关于python - Numpy:比较两个数据集的适应性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20292995/