python - 计算字符串列之间的相关性

标签 python python-3.x pandas string correlation

我有一个 df,其中包含专栏 professional 和 media。我想计算这两列之间的相关性。

是否有计算字符串列相关性的简短技巧?或者我是否已将每个职业和媒体转换为一个数字,然后计算与 .corr() 的相关性?

我发现了一个类似的问题 ( Is there a way to get correlation with string data and a numerical value in pandas? ),但我想检查字符串,而不是字符串中的每个单词。

df

  profession        media      

0 media lawyer      print
1 student           online
2 student           print
3 professor         online
4 media lawyer      online

最佳答案

您可以将数据类型转换为分类,然后再执行

df['profession']=df['profession'].astype('category').cat.codes
df['media']=df['media'].astype('category').cat.codes
df.corr()

关于python - 计算字符串列之间的相关性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51241575/

相关文章:

python - 多处理是否在这种情况下复制对象?

python - 为什么 eval ('"\x2 7"' ) == eval ('"\\x2 7"' )?

python - 在 Pandas 数据框中将 'no' 和 'yes' 转换为 0 和 1

python - 将函数应用于数据框中的特定行

python - 如何将 Pandas DataFrame 中的整数 'category' dtype 转换为 'int64'/'float64' ?

Python:通过元素计数重建列表

python - 在运行代码和调试之前设置 PyCharm 中对象的值 - Python 3

Python - 合并来自多个线程实例的数据

python - 如何设置输入超时

python-3.x - 将 python 列表附加到 DataFrame 列