我有一个包含数字、MCQ-单一响应和MCQ-多重响应的调查问卷数据集。总共有 22 列。数据集看起来像这样:
Age ChooseTransport WillgobyTrain ....
52 1011001 2
21 1000100 1
25 1110000 1
46 0001000 -1
32 1000001 2
“年龄”是一个数值变量。 “ChooseTransport”是 MCQ- 具有 7 个选项的多重响应,其中 1 代表用户已选择该选项,0 代表未选择。 “WillgobyTrain”是 MCQ-单一响应并具有选择编号。
我想找到正确的方法来找出这些不同类型变量之间的相关性。
最佳答案
首先你应该拆分ChooseTransport
分为 7 列,然后尝试使用 data.corr()
(如果您的数据是 pandas.DataFrame
)。
用于分割ChooseTransport
试试这个:
for row_index, answer in enumerate(data['ChooseTransport']):
for i in range(7):
name = 'ChooseTransport_' + str(i)
data.loc[row_index, name] = int(answer[i])
然后删除旧列 ChooseTransport
:
data.drop(columns=['ChooseTransport'], inplace=True)
最后使用data.corr()
:
data.corr()
用于可视化使用 seaborn
:
import seaborn as sns
sns.heatmap(data.corr())
关于python - 如何找到数值、分类(MCQ-单项响应)和(MCQ-多重响应)之间的相关性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49093704/