python - 标准化后的 PIL 逊相关性

标签 python pandas numpy scikit-learn pearson

我想标准化我的数据并计算 PIL 逊相关性。如果我在没有标准化的情况下尝试这个,它就会起作用。通过规范化,我收到此错误消息: AttributeError: 'numpy.ndarray' object has no attribute 'corr' 我该怎么做才能解决这个问题?

import numpy as np
import pandas as pd


filename_train = 'C:\Users\xxx.xxx\workspace\Dataset\!train_data.csv'
names = ['a', 'b', 'c', 'd', 'e', ...]
df_train = pd.read_csv(filename_train, names=names)

from sklearn.preprocessing import Normalizer
normalizeddf_train = Normalizer().fit_transform(df_train)

#pearson correlation
pd.set_option('display.width', 100)
pd.set_option('precision', 2)
print(normalizeddf_train.corr(method='pearson'))

最佳答案

您需要 DataFrame 构造函数,因为 fit_transform 的输出是 numpy array 并可使用 DataFrame.corr :

df_train = pd.DataFrame({'A':[1,2,3],
                   'B':[4,5,6],
                   'C':[7,8,9],
                   'D':[1,3,5],
                   'E':[5,3,6],
                   'F':[7,4,3]})

print (df_train)
   A  B  C  D  E  F
0  1  4  7  1  5  7
1  2  5  8  3  3  4
2  3  6  9  5  6  3

from sklearn.preprocessing import Normalizer
normalizeddf_train = Normalizer().fit_transform(df_train)
print (normalizeddf_train)
[[ 0.08421519  0.33686077  0.58950634  0.08421519  0.42107596  0.58950634]
 [ 0.1774713   0.44367825  0.70988521  0.26620695  0.26620695  0.3549426 ]
 [ 0.21428571  0.42857143  0.64285714  0.35714286  0.42857143  0.21428571]]

print(pd.DataFrame(normalizeddf_train).corr(method='pearson'))
          0         1         2         3         4         5
0  1.000000  0.917454  0.646946  0.998477 -0.203152 -0.994805
1  0.917454  1.000000  0.896913  0.894111 -0.575930 -0.872187
2  0.646946  0.896913  1.000000  0.603899 -0.878063 -0.565959
3  0.998477  0.894111  0.603899  1.000000 -0.148832 -0.998906
4 -0.203152 -0.575930 -0.878063 -0.148832  1.000000  0.102420
5 -0.994805 -0.872187 -0.565959 -0.998906  0.102420  1.000000

关于python - 标准化后的 PIL 逊相关性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40261868/

相关文章:

python - 在 Cython 中更快地计算平方范数

python - 当且仅当嵌套对象中存在特定键时才需要 JSON 模式条件

Python zip() 函数

python - 如何在 Python 中使用循环中的收敛标准来生成矩阵

python-3.x - 给定增长率和特殊规则,如何获得 Pandas 的累积增长?

python - 返回 pandas 数据框中的相关列组

python - 找到适合给定起点的一组点的最大圆(numpy)

android - 使用 Intent 将变量传递给 Zooper 小部件

python - pandas groupby 重新采样导致数据丢失

python - 针对用户登录绘制时间序列时出现问题?